- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国内中文自动分词技术研究综述*
奉国和1 郑伟2
1华南师范大学 经济管理学院,广州 510006
2河北北方学院 理学院,张家口 075000
〔摘要〕分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为了分词技术中的难点。论文全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。
〔关键词〕中文分词 分词算法 歧义消除 未登录词 分词系统
〔分类号〕G354
Review of Chinese Automatic Word Segmentation
Feng Guohe1 Zhen Wei2
1School of Economics Management, South China Normal University, Guangzhou 510006
2College of Science, Hebei North University, Zhangjiakou 075000
[Abstract] Word segmentation is one of the key technology for natural language processing such as text auto-classification, information retrieval,information filtration, document auto-index,summarization auto-generation etc., Chinese word segmentation is difficult problem in word segmentation because of it’s complexity and uncertain language rules in nature.This paper sums up the research comprehensively of Chinese word segmentation algorithm, disambiguation method, unknown word recognition,auto-segmentaion systems etc.and summarizes Chinese word segmentation’s research difficult points and hot points today.
[Key words] Chinese Word Segmentation Word Segmentation Algorithm Disambiguation Method Unknown Word Recognition Word Segmentation System
中文分词是文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理关键技术及难点。经过广大学者共同努力,过去20多年中文分词取得可喜进步,黄昌宁、赵海[1]在四方面总结了取得的成绩。笔者利用CNKI全文期刊数据库,以“中文and分词”、“汉语and分词”、“自动and分词”等为检索条件,检索时段为1987年-2010年9月11日,进行篇名检索,经筛选分别得到相关研究论文214、191、165篇,通过文献归纳总结出该领域研究现状、研究内容、研究热点与难点,并展望其发展。
1中文分词基础理论研究
中文分词理论研究可归结为:三种主要分词算法及组合算法研究、中文分词歧义消除、未登录词识别与分词与词性标注评测研究。
1.1分词算法研究
衡量分词算法优劣标准是分词速度与精度,各种算法围绕精度与速度展开。目前分词算法很多,大致可归纳为:字符串匹配方法、理解分词方法、统计分词方法、组合分词算法。
1.1.1词典分词方法
·算法
词典分词方法按照一定策略将待分析汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,该方法需要确定三个要素:词典、扫描方向、匹配原则。比较成熟的几种词典分词方法有:正向最大匹配法、逆向最大匹配法、双向最大匹配法、最少切分等。实际分词系统,都是把词典分词作为一种初分手段,再通过各种其它的语言信息进一步提高切分的准确率。词典分词方法包含两个核心内容:分词算法与词典结构,算法设计可从以下几方面展开:①字典结构改进;②改进扫描方式;③将词典中的词按由长到短递减顺序逐字有哪些信誉好的足球投注网站整个待处理材料,一直到分出全部词为止。
·词典结构
词典结构是词典分词算法关键技术,直接影响分词算法的性能。三个因素影响词典性能[2]:①词查询速度;②词典空间利用率;③词典维护性能。Ha
您可能关注的文档
- WB试验注事项微信.doc
- WCA验厂会责任审核文件清单.doc
- v畅秋艳化反应速率案例案例(新教材).doc
- WCDMA规和网优工作内容.doc
- WCDMA载波组网策略优化.doc
- WD—2型车试验器说明书(修订版).doc
- WCDMA频指标测试指导--HSDPA&HSUPA篇.doc
- We hod the idea that man can conquer nature.doc
- Web与电邮件安全.doc
- WebGI的地价信息管理与决策2012Esri开发竞赛.doc
- 工业废水污泥资源化利用2025年技术专利布局策略.docx
- 大概念教学在高中历史课程中的课程整合策略研究教学研究课题报告.docx
- 人工智能教育创新人才培养模式下的高中实践教学策略:实践教学环节的创新与改革教学研究课题报告.docx
- 3 《设施蔬菜智能化栽培环境调控技术对温室气体排放的影响分析》教学研究课题报告.docx
- 基于议题式教学的初中道德与法治课程创新研究教学研究课题报告.docx
- 初中英语口语教学中的口语交际情境创设与效果评估教学研究课题报告.docx
- 2025年元宇宙经济系统设计模式创新与虚拟现实游戏产业报告.docx
- 2025年元宇宙经济系统设计模式创新:虚拟现实房地产交易平台发展趋势报告.docx
- 事业单位工勤人员技师考试职业道德复习试题(附答案).docx
- 高中数字公民素养评价体系构建与数字化教学实践研究——以信息技术课程为例教学研究课题报告.docx
文档评论(0)