_图书情报工作_国内中文自动分词技术研究综述.docVIP

下载本文档

10
0
约7.56千字
约 6页
2017-08-09 发布于安徽
举报
版权申诉

_图书情报工作_国内中文自动分词技术研究综述.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

国内中文自动分词研究综述* 奉国和1 郑伟2 1华南师范大学经济管理学院，广州 510006 2河北北方学院理学院，张家口 075000 〔摘要〕分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一，中文本身复杂性及，使中文分词技术成为了分词技术中的难点。论文全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究，总结出当前中文分词面临的。〔关键词〕中文分词分词算法歧义消除未登录词〔分类号〕G354 Review of Chinese Automatic Word Segmentation Feng Guohe1 Zhen Wei2 1School of Economics Management, South China Normal University, Guangzhou 510006 2College of Science, Hebei North University, Zhangjiakou 075000 [Abstract] Word segmentation is one of the key technology for natural language processing such as text auto-classification, information retrieval,information filtration, document auto-index,summarization auto-generation etc., Chinese word segmentation is difficult problem in word segmentation because of it’s complexity and uncertain language rules in nature.This paper sums up the research comprehensively of Chinese word segmentation algorithm, disambiguation method, unknown word recognition,auto-segmentaion systems etc.and summarizes Chinese word segmentation’s research difficult points and hot points today. [Key words] Chinese Word Segmentation Word Segmentation Algorithm Disambiguation Method Unknown Word Recognition Word Segmentation System 中文分词是文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理经过学者共同努力，过去0多年中文分词取得，黄昌宁、赵海总结成绩笔者利用CNKI期刊数据库，以中文and分词and分词and分词为检索条件，进行篇名检索，经筛选得到研究论文篇归纳总结出该领域研究研究内容、研究热点与难点并展望发展。分词理论研究 .1分词算法研究分词速度与精度目前分词算法很多，大致可归纳为：字符串匹配方法、理解分词方法、统计分词方法。 .1.1词典分词方法算法方法按照一定策略将待分析汉字串与词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功该方法需要确定三个要素：词典、扫描方向、匹配比较成熟的几种分词方法有：正向最大匹配法、逆向最大匹配法、最少切分。实际分词系统，都是把分词作为一种初分手段，通过各种其它的语言信息进一步提高切分的准确率。分词方法包含两个核心内容：分词算法与词典结构，可：①字典结构改进②改进扫描方式③将词典中的词按由长到短递减顺序逐字有哪些信誉好的足球投注网站整个待处理材料，一直到分出全部词为止。词典结构直接影响分词算法的性能。三个因素：①词查询速度；②词典空间利用率；③词典维护性能。Hash表是方式，先对GB2312-1980中的汉字排序（即建立Hash表），然后将其后继词（包括词的属性等信息）放在相应的词库表中。孙茂松等设计并实验考察了三种典型的分词词典机制整词二分、TRIE 索引树及逐字二分着重比较它们的时间、空间效率。姚兴山提出首字Hash表、词次字Hash表、词次字结构、词3字Hash表、词3字结构、词4字Hash表、词4字结构、词索引表和词典正文，该结构提高查询速度，增大存储开销。陈桂林等介绍了一种高效的中文电子词表数据结构，它支持首字Hash和标准的二分查找，且不限词条长度，利用近邻匹配方法来查找多字词，提高了分词效率。目前文献看，围绕