2020-09-18 14:27

导语:人在做,AI在看

作者 | 青  暮

编辑 | 丛 末

来自纽约雪城大学的机器学习研究人员Daniel Acuna开发了一款论文图像查重软件,他用这款软件检查了3500篇论文的21,000张图像,在4小时内查出大约400张疑似重复的图像,这项技术或许将为学术造假乱象的解决带来曙光。近日,Nature还对相关事件进行了报道。

由于利益诱惑和成本低廉,学术造假屡禁不止。在国内,学术造假的最终结果几乎都是不了了之。

根据中国科学技术信息研究所的报告,中国发表SCI论文数量已居世界第二,紧追美国。截止2020年6月22日,全世界共有23425篇SCI撤稿,其中中国10303篇,占比44%。

此外,每年中国SCI论文撤稿占所有撤稿的比例也持续上升,2019年达到30%,2020年目前为止已达到33%。今年,中国已有317篇SCI论文撤稿,相对的,美国有215篇SCI论文撤稿。近三年来,剽窃和错误是中国SCI论文撤稿的首要原因。

其中剽窃主要是指文字抄袭,目前的查重系统只能查重文字,不能查重图像。而错误则主要是指 图像错误,包括经过PS然后重复使用的图像。

学术论文造假手段常用的有四种:1、重复用图;2、编造数据,用ps涂抹修图;3、花钱买论文;4、伪造审稿人。其中第一种和第二种最常用,造假成本最低,以重复用图进行学术造假的案例屡见不鲜。

2020年5月, 素有“打假斗士”之称的Elisabeth Bik博士,举报中国8篇论文 “不同作者、不同大学所属医院、不同癌种、不同蛋白表达,结果却一模一样”。

2020年6月,学术打假网站PubPeer上有人质疑清华大学医学院院长董晨24篇文章有些实验图像存在问题。举报者表示:在这24篇论文里,出现了部分实验图像在不同项目中重复出现,但标记数值不同;两幅实验图像相似度极高;不同指标的直方图完全一致的情况。基于之后董晨的回复,有知乎网友分析:他实际上委婉默认了有造假的地方,只是在造假程序或者数量上有不同的意见。

近日,网传Pubpeer 曝出北京大学常务副校长、中国工程院院士詹启敏的 25 篇论文涉嫌学术造假。这25篇论文被怀疑将相同图像修改后应用于不同实验甚至不同论文中。

可见,图像查重对于论文审查是非常重要的一环,而纯粹靠人工审查则相当费时费力,Daniel Acuna开发的这款软件无疑是一大利器。

1

工作初衷:为疫情防治贡献一份力

由于担心关于COVID-19的研究论文可能存在过多的草率工作,纽约雪城大学信息研究学院的助理教授Daniel Acuna 开发了一个能够对论文中的图像进行查重的程序,据悉,现在这项程序已被应用在全球的新冠病毒相关论文的预印本上。

对于开发这项程序的初衷,Daniel Acuna 表示:“我无法阻止疫情,只能以自己的方式做出贡献。”

该算法可一次筛选成千上万张论文以匹配图像,翻转、调整大小或旋转的图像也可以进行匹配。

这些重复图像可能是无意的失误,也可能是不当行为的结果。原本这项工作通常由专家人工检查,或用软件检查少量论文中的图像。

但需要注意的是,目前这项程序仍处于试验阶段,正在接受期刊和研究机构的测试。

2

查重结果存有争议

到目前为止,这项工作取得了一定程度的成功,但也引起了一些争议。

今年6月,Daniel Acuna从bioRxiv和medRxiv服务器上下载了3500个预印本,用他的软件查重了21,000张图像。在4小时内,该软件就查出了大约400张可能重复的图像。不过大多数结果都没有问题,他选择了24篇包含可疑重复图像的论文。

7月,他在自己的网站上发布了这些内容,并在PubPeer上公开。

这件事随后引起了轰动。一些论文作者回应说,Daniel Acuna的软件确实查出了重复的图像,他们将纠正错误,不过也有一些错误已经在同行评审版本中得到纠正。

芬兰赫尔辛基大学的病毒学家Giuseppe Ballistreri 对于这项技术,也持肯定态度,他表示,“如果该工具被证明是准确的,则应默认在PubMed中应用。”PubMed 是一个免费的搜索引擎,提供生物医学方面的论文搜索以及摘要。

另一方面,也有其他人指出,这些重复不是错误。Elisabeth BikBik以其在科学出版物中检测照片操纵的工作而闻名,她表示,希望Daniel Acuna首先向她咨询匹配结果。她进一步在PubPeer写道,该软件“仍然需要人工监督,以确保它不会错误地将适当的重复图像标记为不适当”。

对于 Elisabeth BikBik 的观点,Daniel Acuna 表示同意:软件标记的内容始终需要人来审核,并且尚无法根据上下文了解所获取的内容是否有问题。

更有一些研究人员指出,Daniel Acuna的软件完全弄错了,而且标记了相似但不匹配的图像。例如,北卡罗来纳州达勒姆市杜克大学的Priyamvada Acharya要求Daniel Acuna删除他的一篇论文的匹配结果,该论文包含同一分子的相似视角图。

随后,Daniel Acuna从他的网站上删除了大约三分之一的检查结果,并将该网站的列表设置为私人访问。如此,只有从他那里获得访问密钥的作者才能看到他的检查结果。

总体而言,这项研究论文的自动筛选技术远非完美,而且“仍然需要专家来解释和理解”。此外,德国海德堡的图像分析师 Jana Christopher 也指出了该技术的另一局限性:自动图像检查算法仍然过于专注于查找重复项,并且还不能应对所有图像处理手段。

3

再接再厉

除了技术上的不完美性,Daniel Acuna 本人还指出了影响软件的准确性的一个外在因素:PDF文件格式会破坏自动提取图像的能力。例如,今年5月,Elisabeth Bik在推特上叙述了关于Nature的一篇COVID-19 论文的图像复制问题,该图像也出现在2月份的预印本中,但Daniel Acuna的软件由于论文是PDF格式而没有检查到。

目前为止,关于新冠病毒的研究产生了无数的论文,许多研究人员担心出现低质量的研究和错误,甚至欺诈。有科学家发出警告:“质量低劣的研究将泛滥成灾”。

接下来,Daniel Acuna 打算继续进行论文重复图像的自动检查,而之后首先要做的事情,就是将查重结果告知作者,只有在他们不回应的情况下才公开结果。

对于学术界低质论文泛滥成灾的现象,Daniel Acuna 也发出了告诫:“我希望那些正在动歪脑筋的论文作者们意识到,有人正在对论文图像进行查重。”

参考内容:https://www.nature.com/articles/d41586-020-02161-3

Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击!相关推荐

  1. Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击

    2020-07-23 20:11:26 作者 | 青 暮 编辑 | 丛 末 来自纽约雪城大学的机器学习研究人员Daniel Acuna开发了一款论文图像查重软件,他用这款软件检查了3500篇论文的21 ...

  2. 好消息,发现一款知网学术不端论文检测查重助手,永久免费分享给大家使用

    今天Aliwen要为大家带来一款神器是,知网学术不端论文检测查重助手 v1.5.基本上每个高校都会对学生的毕业论文进行论文查重检测,一方面可以避免论文抄袭,另一方面可以端正同学们的写作态度,让学术氛围 ...

  3. opencv图像配准_Milvus 实战 | 基于 Milvus 的图像查重系统

    背景介绍 由于巨大的利益,论文造假屡见不鲜,在部分国家或地区甚至形成了论文造假的产业链.目前大部分论文查重系统只能检查论文文字,不能检查图片.因此,论文图片查重已然成为了学术论文原创性检测的重要部分. ...

  4. 如何快速通过研究生学位论文的查重问题(转)

    以下内容转自http://blog.sohu.com/people/ilas50!c/ 如果是引用,在引用标号后,不要轻易使用句号,如果写了句号,句号后面的就是剽窃了(尽管自已认为是引用),所以,引用 ...

  5. Milvus 实战 | 基于 Milvus 的图像查重系统

      背景介绍 由于巨大的利益,论文造假屡见不鲜,在部分国家或地区甚至形成了论文造假的产业链.目前大部分论文查重系统只能检查论文文字,不能检查图片.因此,论文图片查重已然成为了学术论文原创性检测的重要部 ...

  6. 硕士论文免费查重网站不靠谱,最好用知网!

    硕士论文免费查重网站不靠谱,最好用知网! 看到很多地方推荐使用免费查重,什么中国知网查重太贵?免费查重省钱?想到这里我都来气!我们学生没钱啊,不想给父母太多经济负担,到处都想节省个三块五块的.对于毕业 ...

  7. 期刊论文需要查重吗?

    自2019年翟天临被曝出博士论文涉嫌抄袭的学术不端问题后,各大高校论文重复率要求大幅提高,论文规范进入了堪称严苛的时期.如今"天临三年",毕业季的同学们依旧被查重率折磨的苦不堪言, ...

  8. 考研要求提交论文PDF查重注意事项(知网查重必看!)

    现在越来越多学校要求提交PDF格式的论文进行查重.近日有不少学生提交PDF格式论文学校知网检测时,被查出出众多重复.小编通过比较和分析,判断出知网查重系统对PDF版本的检测比Word格式的论文检测结果 ...

  9. 英文小论文怎么查重?

    小论文以发表在期刊杂志上为主,虽然内容相对其他论文而言较短,但其写作难度并不低,而且不仅写作有难度,后面进行的论文查重难度更大.那英文小论文要怎么查重呢? 一.英文小论文怎么查重 由于是期刊需要发表的 ...

最新文章

  1. 广州Robotaxi铁三角又落地,文远知行商业化通行证摊牌
  2. CenterNet 读书笔记
  3. php表单登录跳转页面跳转页面,form表单页面跳转方式提交练习
  4. 【linux家常菜】redhat 6.5 安装yum
  5. kafka详解 转载
  6. unity的vr场景怎么做_如何用Unity快速创建一个VR体验
  7. 专访腾讯产品总监邬沛君:TStack斩获OSCAR技术创新奖的背后
  8. os.walk() 遍历目录下的文件夹和文件
  9. 科大讯飞2021笔试题
  10. 关于 m1 xcode12 编译报错 this target. for architecture arm64等问题解决方案
  11. 苏宁MOCK测试桩服务建设实践
  12. mysql innodb_data_file_path_MySQL修改innodb_data_file_path参数的一些注意事项
  13. java getcause_java - 如果在异常上调用getCause(),为什么还要处理Throwable - 堆栈内存溢出...
  14. 二维高斯分布(Two-dimensional Gaussian distribution)
  15. [Java] 蓝桥杯ADV-96 算法提高 复数求和
  16. Linux执行shell脚本提示文件找不到问题解决办法
  17. socket连接时间太长受什么原因影响?_晶振不起振的原因和应对措施
  18. 最新数据:中国一二三四五线城市排名出炉!
  19. Go 语言开发工具 LiteIDE X36 发布
  20. 计算机二级模拟考试软件

热门文章

  1. 正则数字和小数点_Python中的正则表达式【不断补充~】
  2. 数据库原理实验二 数据库管理 实验报告
  3. php nuke是什么,Php Nuke For Donkeys
  4. 圆周率派在电脑上怎样输入_Mac电脑上FCPX软件怎样导入3D LUT调色预设
  5. 如何在html页面循环回显数据,从while循环显示数据到html代码
  6. 用notepad++怎样批量添加引号
  7. numpy.where用法详解,对2维数组判断解释的比较清楚的
  8. html两个性别按钮并排,css实现男女切换按钮
  9. 《因果学习周刊》第9期:因果学习中的工具变量
  10. 活动报名 | 因果科学与Casual AI读书会