自然语言理解工程报告.docVIP

下载本文档

18
0
约 23页
2016-01-18 发布于贵州
举报
版权申诉

自然语言理解工程报告.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自然语言理解工程报告

中文分词工程报告课程：自然语言理解姓名：学号：班级：日期：2013/11/14 研究背景研究背景：由于中文只字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。中文分词技术中文在基本文法上有其特殊性，具体表现在： 1．中文词语之间没有分隔 2．在中文里，“词”和“词组”边界模糊现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，但由于人们认识水平的不同，对词和短语的边界很难去区分。中文分词的方法其实不局限于中文应用，也被应用到英文处理，如手写识别，单词之间的空格就很清楚，中文分词方法可以帮助判别英文单词的边界。中文是一种十分复杂的语言，让计算机理解中文语言更是困难。在中文分词过程中，有两大难题一直没有完全突破。歧义识别歧义是指同样的一句话，可能有两种或者更多的切分方法。主要的歧义有两种：交集型歧义和组合型歧义。交集型歧义相对组合型歧义来说是还算比较容易处理，组合型歧义就必需根据整个句子来判断了。如果交集型歧义和组合型歧义计算机都能解决的话，在歧义中还有一个难题，是真歧义。真歧义意思是给出一句话，由人去判断也不知道哪个应该是词，哪个应该不是词。新词识别那些在分词词典中没有收录，但又确实能称为词的那些词。最典型的是人名，除了人名以外，还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题，而且这些又正好是人们经常使用的词，因此对于有哪些信誉好的足球投注网站引擎来说，分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。字符匹配这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。理解法这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。统计法从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。中文分词是其他的基础，有哪些信誉好的足球投注网站引擎只是中文分词的一个应用。其他的比如MT、自动分类、自动摘要、自动校对等等，都需要用到分词。因为中文需要分词，可能会影响一些研究，但同时也为一些企业带来机会分词准确性对有哪些信誉好的足球投注网站引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于有哪些信誉好的足球投注网站引擎来说也是不可用的，因为有哪些信誉好的足球投注网站引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响有哪些信誉好的足球投注网站引擎内容更新的速度。因此对于有哪些信誉好的足球投注网站引擎来说，分词的准确性和速度，二者都需要达到很高的要求。 1、语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。 2、语类无法由组合成分直接得到的字串应该合并为一个分词单位。 3、附着性语(词)素和前后词合并为一个分词单位。 4、使用频率高或共现率高的字串尽量合并为一个分词单位。 5、双音节加单音节的偏正式名词尽量合并为一个分词单位。 6、双音节结构的偏正式动词应尽量合并为一个分词单位切分原则： 1、有明显分隔符标记的应该切分之。 2、内部结构复杂、合并起来过于冗长的词尽量切分（二）汉语自动分词基本算法 1. 最大匹配法 (MM) ?①正向最大匹配算法 (FMM) ?②逆向最大匹配算法 (BMM) ?③双向最大匹配算法 (MM) FMM 算法描述： (1) 令 i=0，当前指针 pi 指向输入字串的初始位置，执行下面的操作： (2) 计算当前指针 pi到字串末端的字数（即未被切分字串的长度）n，如果n=1，转(4)，结束算法。否则，令 m=词典中最长单词的字数，如果nm, 令 m=n； (3)从当前 pi起取m个汉字作为词 wi，判断： (a) 如果 wi 确实是词典中的词，则在wi 后添加一个切分标志，转(c)； (b) 如果 wi 不是词典中的词且 wi 的长度大于1，将wi从右端去掉一个字，转(a)步；否则（wi 的长度等于1），则在wi 后添加一个切分标志（单字），执行 (c)步； (c) 根据 wi 的长度修改指针 pi的位置，如果 pi指向字串末端，转(4)，否则，i=i+1，返回 (2)；输出切分结果，结束分词程序。 2. 最短路径法基本思想：设待切分字串 S=c1 c2…cn，其中ci(i =1, 2, …, n)为单个的字， n 为串的长度