CNKI知网查重的机制和原理是什么?

2018-05-05 17:01
作者: 学术不端诚信管理研究中心
阅读数:

  写过本科论文、硕士毕业论文或者博士论文的同学对知网都很熟悉了。那么,你知道知网是怎么查重的吗?其实,知网查重的原理跟搜索引擎的工作原理类似的,都是从众多内容里找到特点的内容。我们先来看看搜索引擎的工作原理和过程。

  在整个搜索引擎工作流程中大概会涉及到Spider、内容处理、分词、去重、索引、内容相关性、链接分析、判断页面用户体验、反作弊、人工干预、缓存机制、用户需求分析等模块。搜索引擎会主动抓取网页,并进行内容处理、索引,这些流程和机制一般如下:

  步骤1,派出Spider,按照一定的策略把网页抓回到搜索引擎服务器;

  步骤2,对抓回的网页进行连接抽离、内容处理、消除噪声、提取该页主题文本内容等;

  步骤3,对网页的文本内容进行中文分词、去除停止词等;

  步骤4,对网页内容进行分词后判断该页面内容与已索引网页是否有重复,剔除重复页,对剩余网页进行倒排序索引,然后等待用户的检索。

  相应的,知网查重也涉及到类似的过程,只是其只需要处理好自身数据库内容(见知网论文查重的比对数据库)的分词,索引即可,相对来说简单了很多。大概的过程是:

  1、整篇上传知网学位论文,注意论文的格式对知网检测结果可能会造成影响,需要将最终交稿格式提交检测,将影响降到最小,此影响为几十字的小段可能检测不出。对于3万字符以上文字较多的论文是可以忽略的。

  2、上传论文后,知网查重系统会自动检测该论文的章节信息,如果有自动生成的目录信息,那么系统会将论文按章节分段检测,否则会自动分段检测。

  3、有部分同学反映说自己在段落中明明引用或者抄袭了其他文献的段落或句子,为什么没有检测出来,这是正常的。中国知网对该套检测系统的灵敏度设置了一个阀值,据称该阀值为5%,以段落计,低于5%的抄袭或引用是检测不出来的,这种情况常见于大段落中的小句或者小概念。举个例子:假如检测段落1有10000字,那么引用单篇文献500字以下,是不会被检测出来的。实际上这里也告诉同学们一个修改的方法,就是对段落抄袭千万不要选一篇文章来引用,尽可能多的选择多篇文献,一篇截取几句,这样是不会被检测出来的。

  4、一篇论文的抄袭怎么才会被检测出来?知网论文检测的条件是连续13个字相似或抄袭都会被红字标注,但是必须满足3里面的前提条件:即你所引用或抄袭的A文献文字总和在你的各个检测段落中要达到5%。