基于文本分类的文档相似度计算.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本分类的文档相似度计算

MicrocomputerApplicationsVo1.24,No.12,2008 技术交流 微型电脑应用 2008年第24卷第 12期 文章编号:1007—757X(2008)12.0046-02 基于文本分类的文档相似度计算 赵俊杰 胡学钢 摘 要:如何从成千上万篇文档中找出与指定文档相似的所有文档,首先要做的第一件事就是判断其类别,也就是分类;在 判定类别后 ,再进一步计算,找出同类中所有与指定文档 内容相似 的文档 。由于文档相似度 的计算和文本分类过程很相似 , 所以可 以借助指定文档的分类结果,即类别和文档特征 向量值 ,通过进一步计算与同类中其他文档 的相似度值 ,找 出超过阂 值的文档 ,即找 出与指定 目标 内容相似 的文档。 关键词:文本分类;相似度:向量空间模型;KNN 中图分类号:TP311 文献标识码:A 0 引言 如何从成下上万篇义档中找出与指定文档相似的所有 ∈ D 文档,进而检测有无抄袭现象,首先要做的第一件事就是判 cj 断其类别,如计算机类、医学类或文学类等,这就是文本分 b为阈值,Silo 为文档 d和 相似度,SCORE 类问题。通常情况下可以借助于文本分类器进行判定。当然, C 为测试文档d属于Ci类的分值。 如果所宵文档均有中图分类号,也可以依此进行判定。 文本分类的过程一般为,由人工正确分类的语料库起, 2 文档相似度计算 经过预处理形成便于计算机处理的结构化特征数据,特征数 据与分类算法相结合形成分类器,待分类文本经预处理后形 在基于向量空间模型 (VSM)的文本分类过程中,文本 成文档特征向量,输入分类器进行判断得出分类结果…。文 的特征向量与各类代表向量的夹角是决定文档归属的重要 档相似度的计算和文本分类过程很相似,我们可以借助分类 依据之 。这些夹角的余弦被称作 “相似度””。 的结果,即类别和文档特征向量值,再进一步计算相似度值, 向量空间模型中,文档的内容由一些特征来表达,一般 找出同类中与指定 目标内容相似的文档集合。 由文档所含有的基本语言单位 (字、词、词组或短语)来表 1 文本分类方法 示,即文档可以表示为Document=D(tl,…,),其中 表示 各个项,都被赋予一个权重 ,以表示这个特征项在该文 文本分类是把一组预先由专家分类过得文本作为训练 本 中 的 重 要 程 度 。 这 样 文 本 就 可 以表 示 为 集,对训练集进行分析得出分类模式,用导出得分类模式对 (t1,W1;f2,W2|..|‘f】,W |..;·f,w),可以简记为 其他文本加以分类 。目前,有许多成熟的分类方法,如基 D=D( , , ,%)。 于统计学的支持向量机 (SVM) 、K一最近邻居 (KNN) 、 在计算文档相似度时,向量相似度计算的余弦夹角公式 朴素贝叶斯 (NB) 、基于连接方法的神经网络和基于规则 为: 的决策树 等。文献 指出,s、M『、KNN和 NB是最好的三种 分类方法,SVM分类精度最高,但速度最慢;NB具有最快的 给定文档 d=(f1) ……, ), 速度,但分类精度最低;KNN性能比较稳定,但时空效率有 d = ( 』1,J2……., )。d。和 d,的相似度定

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档