中国知网学术不端行为监测系统采用基于数字指纹的多阶快速检测方法,对用户指定的文档做数字指纹,与相关文档指纹比对,按照文档类型与内容特征不同,支持从词到句子、篇章级别的数字指纹。相似字符串检测阈值根据用户需求可调,以获得用户希望的最佳检测结果。 在相关研发领域积累了丰富的技术基础,包括文本数据库加工技术,文本数据库技术, 数字资源版权保护技术, 知识挖掘技术, 中文自然语言处理技术, 学术评价技术等。
CNKI收录的各类资源为学术不端行为监测系统提供了资源支持。到目前为止,CNKI通过网络正式出版期刊 9135 种(国内正式期刊共 9541 种)自 1994 年以来的全部文献,4600种核心期刊和重要期刊回溯到创刊;其中学术期刊 7460 种,期刊全文文献 2480 万篇,期刊期数和文献收录完整率都大于 99.9%,文献量居国际国内同类产品之首;
出版 503家硕士学位点的 63万篇优秀硕士学位论文,368家博士学位点的 8.7万篇博士学位论文;1286 家重要会议论文 94.7万篇;515 家重要报纸 462 万篇;1376 种重要年鉴 787万篇;600多种工具书 220多万条;学术引文索引数据 600多万条;这些出版物做到平均日更新 20000 条记录;另外,出版平台还集成整合出版了各类第三方数据库资源 1020 种。
在收录资源种类上,CNKI在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。 在资源更新速度上, CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。
学术不端行为监测系统对性能主要包括文献比对查准率、 文献比对查全率、文献比对检查速度。
文献比对查准率: 文献比对查准率指经过系统比对后输出的结果中正确结果所占的比例。准确率>=80%。
文献比对查全率: 文献比对查全率指经过系统比对后输出的结果中正确结果在所有与实际与该文献匹配的文献中所占比例。查全率>=80%。
文献比对检查速度应满足:检查速度在人的感觉和视觉可接受范围内。6000字左右的文献平均耗时小于 3秒。