防剽窃机器

2018-06-23 15

每天,研究人员都会向ArXiv这个庞大的科学写作和研究公共数据库添加数百篇新论文。

每一项新的工作,都会有一个特殊的侦测系统在ArXiv中搜寻它之前看到的文字片段。工作原理:一种算法将ArXiv创始人Paul Ginsparg所称的每个传入文档的文本指纹与数据库中的所有其他指纹进行比较。Ginsparg在一封电子邮件中告诉我说: 该算法每天可以将500多篇新文章与数据库中大约100万篇文章在几秒钟内进行比较。

并定期弹出匹配项。大约3 %的每月提交的文件——大约250份——被标记为可重复使用的文本。每年总共有数千篇论文。金斯伯格想更多地了解到底发生了什么。因此,他和一位同事最近研究了20年来在ArXiv上发布的数十万篇论文中的文本重用。(很自然,他们的发现可以通过数据库获得。)

金斯伯格和合著者丹尼尔·香茅从一些基本问题开始。世界上研究人员最常复制他人作品的地方是哪里?人们经常直截了当地剽窃别人的东西,还是大量引用别人的东西?他们的发现让他们吃惊。一方面,许多重复使用他人大量文本的研究人员似乎组成了作者的小群体,他们经常相互引用。金斯伯格说,很难知道这些网络是怎么组成的。

这不是高质量的研究,通常在雷达下他告诉我。有时是非主流研究人员(发展中国家等)。)尽最大努力。另一些时候,这是如此极端,给人的印象是他们有意欺骗出版记录。

这一发现或许可以让我们放心,那些重复使用文本最多的报纸最少被别人引用。金斯伯格发现,换句话说,重复使用最多文字的作品并不是最有影响力的作品。但这种相反的关系也可能预示着一些串行文本再用户正在逃脱智力盗窃。

当然,并不是所有的文本重复使用都是错误的。(考虑本文中重复使用的文本形式:我引用金斯伯格的论文。)但金斯伯格提醒我,ArXiv标记作品的门槛非常宽松,允许从以前的文章中自动复制多达百分之二十,或者在被标记之前一字不差地重复使用他人作品中的文字,他说。Ginsparg说,举例来说,本周被标上标签的一篇论文包括多个段落,每个段落都是由其他作者从至少10个不同来源逐字记录的。这都是引用的,但是逐字抄其他来源的段落还是草率的。

在一些国家,文本的重复使用似乎也比其他国家更多,这一发现反映了学术文化的差异,以及非英语母语者在用英语写作时可能更加依赖引用他人的可能性。但有几个重叠的因素在起作用。Ginsparg的论文: 许多来自非西方文化的学生以前从未听说过这个词剽窃在某些文化中重写另一个作者的词被认为是失礼的。 (来自下列国家的作品中悬挂国旗的比例最高:孟加拉国、白俄罗斯、保加利亚、哥伦比亚、塞浦路斯、埃及、伊朗、约旦、哈萨克斯坦、吉尔吉斯斯坦、拉脱维亚、卢森堡、密克罗尼西亚、摩尔多瓦、巴基斯坦、沙特阿拉伯和乌兹别克斯坦。)

不同学科之间也存在文化差异。Ginsparg告诉我说:「例如,在数学上,重述一个定理的几个段落而不直接引用是完全可以接受的,」而在物理学上,

没有直接的类比。

在其他情况下,研究人员根据任意框架证明了重复使用其他人的工作是合理的。Ginsparg : 我记得有一次,出于好奇,我给一名研究人员发了一封电子邮件,询问为什么他的介绍是从维基百科一字不差地摘录下来的,没有署名。他的回答还是很有意思的:如果是从一篇文章中,我肯定会引用它,但这对于集体制作的材料来说并不是必须的。

最大的惊喜之一是人们正在复制的材料。文字的再利用不限于研究。借来的短语会在确认部分出现。一个人怎么可能没有独创性来想出如何感谢别人?金斯伯格问道。

想想他发现的一些例子,比如这样的认可:

我无法形容我对我的好女朋友阿曼达有多感激,阿曼达的爱和鼓励总是激励我尽我所能去实现。我不可能写t他的论文没有得到她的支持;尤其是我的特殊工作时间和不稳定的行为,到最后是不容易处理的!

还有这个:

我无法形容我对我的妻子雷纳塔有多感激,她的爱和鼓励将永远激励我尽我所能。没有她的支持,我不可能写这篇论文;尤其是我的特殊工作时间和不稳定的行为,到最后是不容易处理的!金斯伯格指出,

(使用别人的 s 谢谢语言可能会导致剽窃之外的问题,如果研究人员拿起别人的文字,但没有以他或她的伴侣的名义交换。)

一般来说,最著名的作家和研究人员并不是那些重复使用文本的人——他们自己或他人的作品。金斯伯格写道:「我们怀疑这些研究人员对翻新同一个知识领域毫无兴趣,更不用说逐字重复使用自己或他人的资料。」