中文信息学报一种基于信息熵的中文高频词抽取算法.pdfVIP

下载本文档

6
0
约1.37万字
约 5页
2017-09-04 发布于天津
举报
版权申诉

中文信息学报一种基于信息熵的中文高频词抽取算法.pdf

1、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，可选择认领，认领后既往收益都归您。。
2、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形，可联系本站下载客服投诉处理。
3、文档侵权举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文信息学报第卷第期文章编号一种基于信息熵的中文高频词抽取算法任禾曾隽芳中国科学院自动化研究所综合信息中心北京摘要为扩展分词词典提高分词的准确率本文提出了一种基于信息熵的中文高频词抽取算法其结果可以用来识别未登录词并扩充现有词典我们首先对文本进行预处理将文本中的噪音字和非中文字符转化为分隔符这样文本就可以被视为用分隔符分开的中文字符串的集合然后统计这些中文字符串的所有子串的相关频次信息最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词实验证明该算法不仅简单易行而且可以比较有效地从文本中抽

中　文　信　息　学　报第 20卷第 5期　 JO URNAL O F CH INESE INFO RM A T IO N PROCESS ING Vol. 20 No. 5 文章编号 : 1003 - 0077 (2006) 05 - 0040 - 04 一种基于信息熵的中文高频词抽取算法任　禾 , 曾隽芳