- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第讲 词法分析
概率最大分词方法 概率最大分词方法 输入:字符串S:幼儿园地节目 输出: 词串W1:幼儿园/ 地/ 节目/ 词串W2:幼儿/ 园地/ 节目/ 即求 max(P(W1|S), P(W2|S)) 依据贝叶斯定理及独立性假设: 概率最大分词方法 概率最大分词方法的实现 利用动态规划算法来实现: 即最优路径中的第i个词wi的累计概率等于它的左相邻词wi-1的累积概率乘以wi自身的概率 概率最大分词方法的实现 具体步骤如下: 对一个待分词的字串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,wn; 计算每个候选词的概率值P(wi),记录每个候选词的全部左邻词; 计算每个候选词的累计概率,累计概率最大的候选词为最佳左邻词; 如果当前词wn是字串的尾词,且累计概率P’(wn)最大,则wn是S的终点词; 从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果. 概率最大分词方法的实现 例: 概率最大分词方法的问题 评测指标: 正确率 (precision, P) :测试结果中正确切分的个数占系统所有输出结果的比例 召回率(Recall ratio, R):测试结果中正确结果的个数占标准答案总数的比例 F-度量值(F-Measure) F-度量值:正确率和召回率的综合值 通常: 2003年国家863评测部分结果: 分词: 最好成绩:P=93.44%, R=93.69%, F1=93.46% 最差成绩:P=91.42%, R=89.27%, F1=90.33% 词性标注: 最好成绩:P=87.47%, R=87.52%, F1=87.5% 最差成绩:P=68.65%, R=68.99%, F1=68.82% 词法分析到何种程度? 目前,对英语进行词法分析,可以到两种程度: 词干层 如:impossibilities-impossibility+ies 词根层 如:impossibilities-im+poss+ibil+it+ies 再如动词的现在分词变形规则: *ing→* (VING) *ing→*e(VING) 如:come → coming *ying→*ie(VING) 如:die → dying 具体分析算法: 假定规则变化表的规则库为:RuleBase , 不规则变化表的规则库为:NonRuleBase,则算法如下: (1)输入一个词 (2)首先查看词典中是否有该词,如果词典已经有,则直接得到该词及其属性,转向(5)。如果词典中没有该词,则查找RuleBase。 (3)如果RuleBase中存有该词的变形,则根据相应的变形规则,得到该词的原形及其属性,转向(5)。如果RuleBase中没有,则查找NonRuleBase。 (4)如果NonRuleBase中存有该词的变形,则根据词的不规则变化得到该词的原形及其属性,转向(5)。如果NonRuleBase未存有该词的变形,则该词是未登录词,转入未登录词处理模块。 (5)结束。 该算法的优缺点: 克服了过程性词法分析的缺点,把分析算法和具体的语言分开;程序的可移植性好,分析效率高。 算法具体举例: 入口:opens , 出口为:open原形的属性,这个算法的前提是词典只有一个原形词的入口。 (1)取得该词“opens” (2)先直接到词典中查找(匹配)“opens”,显然没有。 则到RuleBase中查找是否有该词的变形: 先根据变形规则库使得: opens - open 然后到字典中查open,有则说明RuleBase中有该词的变形。 (3) 根据(2)得到该词的原形open,以及open的属性及语义。 为什么要进行屈折词的词法分析? 屈折词形变化丰富 减少词典入口词数量,减少信息重复。 可以识别词法范畴信息,如:人称、数、时态。 识别生词的功能。 在一定程度上解决歧义。 -----摘自詹卫东讲义 -----摘自詹卫东讲义 五、 评测指标 -----摘自宗成庆东讲义 六、 汉语切分歧义及其处理 汉语切分歧义及其处理 对汉语自动切分会产生歧义 切分歧义是影响分词系统切分正确率的重要因素,也是分词阶段最困难的问题。 切分歧义包括: 交集型歧义和组合型歧义 交集型歧义 如果字串abc既可切分为ab/c,又可以切分为a/bc。 如: “研究生命”= “研究/生命” 或 “研究生/命” “白天鹅” = “白天/鹅”或“白/天鹅”
文档评论(0)