- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种改进的基于句子相似度的检测算法① - 计算机系统应用
计 算 机 系 统 应 用 2010 年 第 19卷 第 2 期
①
一种改进的基于句子相似度的检测算法
邢长征 孙 伟 (辽宁工程技术大学 电信学院 辽宁 葫芦岛 125105)
摘 要: 基于句子相似度的文档复制检测算法在抓住了文档的全局特征的同时又兼顾文档的结构信息,在该算
法的基础上对相似度算法进行了改进,解决了人工设定阈值的问题,并提高了检测精度。实验证明,
该算法是可行的,并减少了响应时间。
关键词: 文档复制检测;句子相似度;指纹;词频统计
An Improved Detection Algorithm for Document Reproduction
XING Chang-Zheng, SUN Wei
(Liaoning Technical University, Huludao 125105, China)
Abstract: The document copy detection algorithm based on the similarity of the sentences cannot only emphasize on
the whole document, but also on the structure of the document. This paper improves the similarity algori-
thm based on it, solves the artificial problem of threshold setting and improves the detection accuracy. The
result of experiments shows that it is feasible and the running time is reduced.
Keywords: document copy detection; sentence similarity; fingerprints; frequency statistics
文档复制检测( Document Copy Detection) 就 用于文档复制检测的方法大致分为两种:基于词频统
[2]
是判断一个文件的内容是否抄袭、剽窃或者复制于另 计的方法和基于字符串比较的方法 。
外一个或者多个文件, 剽窃不仅仅是原封不动地照搬,
还包括对原文内容的移位交换、同义词替换、说法重 1 现有的面向文档的检测算法
述等。文档复制检测技术可以应用在数字图书馆、互 1.1 基于字符串比较的方法
联网、网上论文提交系统等来发现重复文本。文本、 这一类方法的主要思想是:从文档中选取一些字
图像、音频、视频等是数字产品的表现形式, 其中文
文档评论(0)