基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用(职称论文资料).docVIP

基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用(职称论文资料).doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用(职称论文资料) 目录 TOC \o 1-9 \h \z \u 目录 1 正文 2 文1:基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用 2 一、基于信息熵的领域术语自动抽取算法 4 二、正规划的类间分布 5 三、正规划的类内分布 6 四、具体算法及在文本分类中的应用 6 五、以词为单位产品评论过滤 7 (一)实验原理 7 (二)实验过程与结果 8 六、以字为单位产品评论过滤 8 (一)实验原理 8 (二)实验过程与结果: 8 七、以组块为单位产品评论过滤 9 (一)基于互信息的字串内部结合强度计算 9 (二)字串内部结合强度(互信息)计算公式优化 10 (三)实验原理 10 (四)实验过程与结果: 11 文2:中文领域术语自动抽取方法进展综述分析 11 1 中文领域术语抽取研究现状及发展趋势 12 1) 依赖分词及词性标注的准确度 14 2) 过分依赖前景知识(领域词典) 14 3) 重视领域特征而忽视了术语的单元性特征 15 2 结束语 15 参考文摘引言: 16 原创性声明(模板) 16 文章致谢(模板) 17 正文 基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用(职称论文资料) 文1:基于信息熵的领域术语自动抽取算法在产品评论过滤中的具体运用 网上商品评论从本质上讲就是一种文本数据,对于一个关注该商品的潜在消费者而言,全部阅读如此庞大的文本数据以帮助自己做决定是十分困难的,所以,有效的产品评论挖掘系统成为了帮助消费者轻松进行产品评论所必不可少的。要完成产品评论挖掘系统设计与实现,获取用户评论、过滤用户评论、抽取产品特征等内容必不可少,而在过滤用户评论的过程中,由于Web上的用户产品评论存在大量的噪音,有的评论根本和产品无关,还有很多的广告信息,严重影响了产品评论挖掘的质量。因此,要先过滤产品评论,以提高挖掘结果的准确率,同时在从指定网站获取产品评论后,根据需要以词语为单位进行过滤、以字为单位进行过滤、以组块为单位进行过滤,以求过滤掉其中的低质评论。使其更好地为产品评论挖掘系统服务。 例如在数码相机领域中出现的“某些领域日货有优势,某些领域国产有优势。要尽可能地支持国产品牌,看看咱们国家过去走过来的路,多么坎坷。现在我们发展势头很好,大家多努力,多支持国货。”又比如“北京吉祥数码商城,所有数码产品全部都是市场价的5折”,像以上这种评论对于评论挖掘说毫无用处,让它存留在语料库中只会增加程序的负荷,同时降低挖掘质量,降低挖掘结果的准确率。所以在进行产品评论挖掘以前我们需要对产品评论语料库进行过滤,去掉其中的低质评论,以提高挖掘质量,提高挖掘结果的准确率。 领域术语自动抽取是指从一定规模的语料中抽取出能反应某一领域文本特征或共性的词语,是自然语言处理中的一项重要任务。术语抽取被广泛应用于本体构建 、自动【摘要】、语言模型等领域。单纯靠语言学专家抽取领域术语费时费力,因而很难形成规模,开发一种自动化的方法来辅助术语抽取显得尤为必要,能为许多面向领域的应用提供重要语言学资源。通常被采用的方法可以分为基于规则的和基于统计的方法两大类。基于规则的方法是通过预先设定许多规则模版,然后把待处理语料中与规则模版相匹配的词语作为领域术语候选。规则方法的不足在于很难制定一个完备的规则集来穷尽所有语言现象,并且当已有许多规则时,还需要考虑多个规则之间的冲突及解决。基于统计的方法通常包括机器学习方法和基于统计量度的方法。基于统计量度的方法是从领域分类语料中统计用词规律从而发现领域术语。已有的统计量度包括TFIDF、KFIDF、DR + DC。KFIDF 量度与TFIDF 相比,引入了词语的类别信息。DR 和DC 分别表示词语的领域相关性和领域一致性,领域一致性是指词语在其相关领域的所有文档中分布的一致性,它对获取高质量领域术语起重要作用。该方法被用于英文文本的领域术语抽取并取得了很好的效果,但该方法没有考虑不同领域语料的规模以及不同文档长度对领域术语抽取的影响。 在前人工作基础上,基于如下两个度量标准又有了一种新的领域术语抽取方法被提出,它能够更加准确、有效地度量领域术语的属性: ①.领域术语应该在不同领域类别间分布不均匀。 ②.领域术语在其相关领域的文档集中应尽可能分布均匀。 我们采用信息熵来衡量以上两个分布,并根据不同领域语料的规模及文档长度做正规化。这样也就是从类间分布、类内分布及语料规模三方面来衡量每个词语。本文还用该领域术语抽取方法代替传统特征选择方法应用于文本分类,使文本分类精度有了很大提高。 一、

您可能关注的文档

文档评论(0)

szbalala + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体 深圳市巴啦啦科技有限公司
IP属地广东
统一社会信用代码/组织机构代码
91440300MA5FCP2R75

1亿VIP精品文档

相关文档