大数据文摘出品

编译:曹培信、周家乐

随着毕业季的邻近,翟天临又一次被网友们骂上了微博热搜。

翟的论文抄袭事件过后,许多高校都加强了论文评审标准,更有严格的院校连非毕业生的论文结课都要查重。

许多深夜改论文的学生于是结伴来到微博@翟天临:你睡了吗?你怎么睡得着?我还在改论文!你配睡觉吗!

图片来自微博

翟天临自己可能也没有想到,竟然阴差阳错对中国高校教育做出了卓越的贡献。

然而,也有学渣表示,以后查重这么严,抄袭是不可能了,只能找人代写了。

早有媒体曝光过学术圈“论文代写”的产业链。据第一财经报道,相关淘宝搜索的本科文科论文每千字200元左右。

不过,这条“学术歪路”也要被AI堵死了。近日,哥本哈根大学的研究人员的最新研究称,刚刚开发出一款“反枪手代写”的AI系统。

这款系统意图通过智能写作分析技术,来检测论文作弊。可以根据你的写作习惯,确定论文究竟是你自己写的作业还是由他人代写。

根据对13万份书面作业的分析,科学家们可以以近90%的准确率检测出学生究竟是自己写的作业,还是由代笔撰写。

基本上可以达到“代写”作业一抓一个准的结果了。

高中代写成风,哥本哈根大学的神操作

这套针对学生论文作弊行为的研究,已经在哥本哈根大学计算机科学系(DIKU)进行了几年了,最初,这款研究是针对丹麦的高中生进行的。

在丹麦,高中目前主要使用的作业查重平台叫做Lectio,可以用来检查学生的作业中是否有段落是直接复制先前提交的作业的。

然而,随着各类线上服务平台的盛行,在丹麦高中生中,找人代写作业变得越发容易。

面对这种情况,学校一直缺乏有效的检测手段。

学习轨迹项目或“SRP”(丹麦语的“Studie Retnings Projekt”)是丹麦高中毕业生的必修跨学科课程,也是一项非常重要的书面作业。在这个项目中的作弊现象尤其引人注目。

由于SRP对于毕业十分重要,很多学生们在丹麦竞拍网站Den Bla Avis上发布他们的写作任务来找人代写。

和中国的老师和大多数查重系统一样,Lectio只能查重,没法判断一份作业是否是找人代写的。

哥本哈根大学的一些院系一直和很多高中有着SRP项目的合作,深受代写作弊行为之害,一直在探究解决之道。

这所大学的计算机科学系DABAI项目组决定教教这些偷懒的高中生们“做人”。

DABAI(丹麦大数据分析驱动创新中心)是一个成立于2016年的丹麦国家研究中心。除了研究机器学习的高效算法,这个研究小组本来就对学生教育特别关注。之前,他们曾研究了“优化学生的个性化学习”、“提高教师洞察力”等教育项目。

名叫“枪手”的反枪手神器

这个防作弊程序被叫做Ghostwriter(枪手),它本质上属于一种基于机器学习和神经网络技术的一款文本分析程序。

项目组成员Stephan Lorenzen博士称,这款程序可以比较该学生最近提交和以前提交的文章来识别写作风格的差异。

“程序会关注单词长度、句子结构以及单词的使用方式等诸多特征。例如,它会察觉‘for example’被写成了‘ex’,还是‘e.g.,’。”

其数据集来自为丹麦高中提供Lectio平台的MaCom公司,该公司覆盖了丹麦90%以上的高中,他们为GhostWriter项目的研究人员提供了13万份不同高中学生书面作业。

这个研究组认为,这款产品非常具有实际效用,很多学校对于找出“论文究竟是谁写的”这个问题有着越来越高的技术需求。

但Stephan Lorenzen博士也认为,“在此之前,还需要认真讨论一下应用这项技术所面临的伦理问题。我们不能把这个程序得到的结论作为判别是否作弊的唯一标准,更应该把它看作一份辅助性的证据。”

Ghostwriter是怎么工作的?

Ghostwriter程序使用Siamese 神经网络来区分不同文本的写作风格:通过大量数据的训练,学习不同写作风格的外在表现(representation),然后进行比对。

这个项目分两步来解决作者身份验证问题。首先是解决了计算两个文本之间写作风格相似性的问题,主要通过使用Siamese网络学习相似度函数s:T×T→[0,1]。其次是再解决作者A的验证问题,通过比对未知作者文本X和已知是作者A的文本T之间的相似性。

在网络方面,他们考虑使用不同的输入通道考虑几种不同的体系结构(例如,char,word,POS-tags),最终确定了一种表现最佳的网络架构:

Best performing network

编码部分包括一个字符嵌入(Embd),然后是两个不用的卷积层,每个卷积层后面都有一个全局最大池化层(GMP)。

在比较部分,他们首先计算合并层中的编码之间的绝对差值,然后,应用4个密集层,每层有500个神经元,最后使用具有两个输出的softmax层来进行归一化。

他们将数据集分为三份,T-train用于训练,T-val用于训练提前停止和selecting Cs,T-test仅用于估测试模型。

经过训练,模型的准确率达到了87.5%。

最后实现的功能就是,当学生提交作业时,该网络会将其与以前的作业进行比较。对于每个作业,神经网络都会计算出一个百分数,用于表示新旧作业的相似性。然后,通过综合考虑新旧作业相似性、交作业时间等多种因素计算出一个加权平均值。这个最终值就可以用来表示新作业和学生写作风格之间的相似性。

这一研究已经被发表在一篇名为《识别高中代写“枪手”》的论文中。

论文链接:

https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf

除了论文,还能与警方合作筛查伪造文本

除了代写作业,Ghostwriter的技术也可以应用于社会的其他地方。

例如,该程序可辅助警方的文档审查员执行各类文件的真伪分析任务,比如一份商业合同是否是伪造的;或者一个离奇的自杀案中,死者留下了一封遗书,这封遗书是不是死者本人写的等等。

“与警方合作将是一件有趣的事情。警方现有的方法是聘用文件审查员来定性的比较文本之间的相似性和差异。而我们的方法则适用于大数据并自动找到其中潜藏的模式。我认为结合两者将有利于警察开展工作。”Lorenzen说,他强调这里也同样需要讨论其面临的伦理问题。

这项利用人工智能来检测作业中作弊行为的技术,具有广泛的应用前景。

目前,它还被用来分析Twitter文本,以确定文本内容是由真实用户撰写的,还是由水军或机器人编写的。也就是说,淘宝店铺雇佣水军好评,很有可能也能被识别出来。

相关报道:

https://www.sciencedaily.com/releases/2019/05/190529145048.htm

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31562039/viewspace-2646864/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31562039/viewspace-2646864/

“翟天临”克星?哥本哈根大学开发反“枪手”AI,识别作业代写准确率接近90%...相关推荐

  1. “翟天临”克星?新开发的反“枪手”AI,识别作业代写准确率接近90%

    编译:曹培信.周家乐 来源:大数据文摘(ID:BigDataDigest) 随着毕业季的邻近,翟天临又一次被网友们骂上了微博热搜. 翟的论文抄袭事件过后,许多高校都加强了论文评审标准,更有严格的院校连 ...

  2. 「蚂蚁呀嘿」克星来了!中科院23岁博士生开发「听音识人」,准确率近90%

    转自:新智元 看脸和声音是否匹配,这种黑科技如今走向了现实.中科院计算所23岁的博士生温佩松主导开发出一种「听音识人」的 AI 技术,只需1秒就能将声音和正确人脸进行匹配,准确率接近 90%. 「AI ...

  3. 让医生能更好诊断患者风险 英国剑桥大学开发心脏病预测AI

    据了解,英国剑桥大学的研究人员开发的这款 AI 心脏病预测产品,需要使用大量的健康信息绘制每个患者的健康趋势,分类算出每种疾病的风险,进而使临床医生更好地诊断或预测患者的疾病风险. 该项目采用深度学习 ...

  4. 没有灵魂的AI,沦为代写的工具!谁来为AI植入心灵?

    你们应该培养对自己,对自己的力量的信心,百这种信心是靠克服障碍,培养意志和锻炼意志而获得的.--高尔基  中国软件网每日精选文集 想必大家最近都听说了一款抄作业"神器" 这&quo ...

  5. 康奈尔大学王飞博士:AI处理医疗数据面临的8大挑战

    康奈尔大学王飞博士:AI处理医疗数据面临的8大挑战 本文作者:张利 2017-07-26 21:32 导语:数据质量.数据量.数据标准-- 雷锋网按:本文转自HC3i中国数字医疗网,作者王飞博士,他是 ...

  6. 剑桥大学《2020年AI全景报告》出炉!

    来源:机器之心 作者:泽南.蛋酱.小舟 NeurIPS 接收论文中,29% 的作者有中国大学的本科学位,但他们在毕业后有 54% 会去美国攻读研究生博士,这其中又有 90% 选择留美工作.剑桥大学的 ...

  7. 格拉斯哥大学开发新算法,预测病毒的原始宿主

    文章来源:ATYUN AI平台 科学家已经开发出一种机器学习算法,可以帮助找到病毒的原始宿主.新工具有希望帮助做出针对致命疾病的预防措施. 这项由格拉斯哥大学领导的新研究采用了一种新算法,该算法旨在利 ...

  8. 斯坦福大学开发人造神经系统,为假肢或机器人提供触觉和感知能力

    内容来源:ATYUN AI平台 斯坦福大学和首尔国立大学的研究人员开发了一种人造感觉神经系统,可以激活蟑螂的抽搐反射,并使其识别盲文中的字母. 这项工作是为假肢创造人造皮肤,恢复被截肢者感觉的一步,也 ...

  9. 十项观察!药物开发中的AI现状

    今年十月底在哈弗医学院由Corey Lane Partners,LLC创办的BioPharma AI应用峰会已经圆满落幕.这次峰会堪称是人工智能和生命科学相交的一个显型快照.本文我们将总结一下这次峰会 ...

最新文章

  1. 00后MIT美女学霸获2022年罗德奖学金!4位中国学霸入学牛津
  2. 李永乐线性代数2020年强化课手写笔记汇总
  3. java面向对象的特征 —(13)
  4. 抢鲜体验.NET6 Preview1,配上Docker简直停不下来!
  5. 电脑引起“心理死亡”
  6. python文件编码转换工具_python实现unicode转中文及转换默认编码的方法
  7. 写一个方法判断一个整数是否为质数_请写一个函数来检查用户提交的数据是否为整数...
  8. [转载] python 如何判断中文的字符串长度
  9. java学习总结及心得体会
  10. 编译原理生成中间代码(flex和bison版)
  11. 近期CDRX4正常使用中突然提示盗版弹窗您的产品已被禁用永久解决教程
  12. VTK学习之激光点云动态库封装(排水管道)
  13. 【学习笔记】揭秘阿里CDN核心技术
  14. 剑网三游戏延迟太高卡顿进不去怎么处理?
  15. [LOJ#3124][CTS2019]氪金手游(概率 + 树形 DP + 容斥)
  16. 搜索引擎,你真的会用吗?
  17. html5手机不能自动播放音乐,H5案例---解决H5中背景音乐无法自动播放问题
  18. 礼帽黑帽操作,开闭运算
  19. 报错:‘gbk‘ codec can‘t decode byte 0x98 in position
  20. Python爆破Zip密码

热门文章

  1. Raspberry Pi 4B树莓派 | #入门教程04#设置屏幕常亮,禁止树莓派休眠
  2. 2020年七夕表白大合集,再不看就来不及了
  3. 算法笔记3.3C:等腰梯形(基础题)
  4. 王者荣耀花木兰攻略解析
  5. python定义变量长度_超详细的Python变量的基本使用
  6. Layui表格优化(表格显示内容后面加 元 或者其他文字或符号)
  7. 对平底锅和垃圾的O奖论文的整理和学习[1](2018-02-08发布于知乎)
  8. 入耳式无线蓝牙耳机哪款好?无线入耳式蓝牙耳机音质排行榜
  9. VNCTF2022-RE
  10. beeware详解(一): 搭建环境