在本站的第一篇文章(什么是学术不端行为?)中,定义了学术不端行为,其中提到主要的学术不端行为分为以下这四类:抄袭、伪造、篡改及其他。“其他”主要包括不当署名、一稿多投、一个学术成果多篇发表等不端行为。那么知网论文查重是如何确定这些行为的呢?我们在这里分析一下。
1.抄袭
抄袭的检测是很简单的,跟某部分内容重复就认定为抄袭,如下面的段落抄袭的例子:
2.纂改
篡改是指按照期望值随意篡改或取舍数据,以符合自己的研究结论,一般有主观取舍数据和篡改原始数据等形式。
对于篡改,知网论文查重系统也具有一定的手段进行检测,首先来看一个例子,在一篇文献中提到:分词的准确率为99.66%,词性标注的准确率为99.07%,利用CNKI知网已有的相关技术,系统可以快速检测与分词准确率和词性标注准确率有关的数值信息,供审查人员参考,对文献中数据值远高于当前公布的数据值的情况,提醒审查人员仔细核查,如下图所示:
在图中,上面黄色标示的是检测文献中描述的分词准确率和词性标注准确率,下面部分则是在CNKI知网特色搜索功能——数值搜索中检索到的当前关于分词准确率和词性标注准确率的描述。我们可以观察到,当前检测到的所有关于分词准确率和词性标注准确率的描述文字中,其数值均低于检测文献中所描述的数值,因此,我们有理由对检测文献中的分词准确率产生怀疑,提示审查人员进一步核查。
3.伪造
伪造的特点:新研究成果中提供的材料、方法、数据、推理等方面不符合实际,无法通过重复试验再次取得,有些甚至连原始数据都被删除或丢弃,无法查证。
伪造包括的方面很多,可以伪造数据、伪造基金、伪造项目、伪造数值、表格、图形等。
伪造基金/伪造项目:有些论文中虚设基金、项目支持,这种情况可通过查询政府相关基金项目库可以快速验证;
伪造数值、图表等知识元,则可以通过CNKI知网已有的成熟的数值搜索技术、图表搜索技术进行查证,起到警示作用。
注意:伪造是检测难度最高的不端行为,还需要做进一步、更深的研究。
4.其他类型:
引用杜撰:别人根本没有说过的话,自己编造,却作为他人的话引用。尤其是杜撰引用国外学者。
引文杜撰:根本就不存在的文献,杜撰一篇引文。
知网查重系统也在不断的改进,试图去检测出更多的学术不端行为,为净化国内的学术环境出一把力!