computationallinguistics02.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
computationallinguistics02

现代汉语词语切分研究 常宝宝 北京大学计算语言学研究所 chbb@pku.edu.cn 什么是汉语自动切分? 通过计算机把组成汉语文本的字串自动转换为 词串的过程被称为自动切分(segmentation)。 ? 例子: ? 鱼在长江中游 ? ?鱼/在/长江/中/游 汉语和英语等印欧语不同,词和词之间没有空 格。 ? 例子: ? I’m going to show up at the ACL 英语中的切分问题 英语中不是完全没有切分问题,不能仅仅凭 借空格和标点符号解决切分问题。 1. 缩写词 如: N.A.T.O. i.e. m.p.h Mr. ATT 2. 连写形式以及所有格词尾 I’m He’d don’t Tom’s 3. 数字、日期、编号 128,236 +32.56 –40.23 02/02/94 02-02-94 D-4 T-1-A B.1.2 4. 带连字符的词 text-to-speech text-based e-mail co-operate 英语中的切分问题 英语中的切分通常被叫做Tokenization。 同汉语相比,英语切分问题较为容易。 为什么要进行汉语的切分研究 对汉语进行切分是许多应用的要求 1. TTS或语音合成 只有正确切词,才能知道正确的发音,如: 的(de0) 目的(di4) 只有正确切词,才能正确变音,如: (Third Tone Sandhi) 3+3?2+3 很好 好酒 小老鼠 3+3+3 ? 2+3+3 or 3+2+3 只有正确切词,才能正确解决轻声的问题,如: 冬瓜 桌子 为什么要进行汉语的切分研究 2. 信息检索 切分有助于提高信息检索的准确率,如: a.和服务于三日后裁制完毕,并呈送将军府中。 b.王府饭店的设施和服务是一流的。 3. 词语的计量分析 词频统计 (汉语中最常用的词是哪个词?) 4. … 汉语切词也是深层汉语分析的基础 句法分析、语义分析等 基本方法 最大匹配法(MM) 1. 正向最大匹配法(MM) 2. 逆向最大匹配法(RMM) 正向最大匹配法 逆向最大匹配法 正向最大匹配法 从左向右匹配词典 逆向最大匹配法 从右向左匹配词典 例子 ? 输入:企业要真正具有用工的自主权 ? MM:企业/要/真正/具有/用工/的/自主/权 ? RMM:企业/要/真正/具有/用工/的/自/主权 最大匹配法 长词优先 ? 输入:他将来中国 ? MM:他/将来/中国 ? RMM:他/将来/中国 ? 正确:他/将/来/中国 算法非常简单 自动切分的评价 准确率(precision) 准确率(P)=切分结果中正确分词数/切分结果中 所有分词数*100% 召回率(recall) 召回率(R)=切分结果中正确分词数/标准答案中 所有分词数*100% F-评价(F-measure 综合准确率和召回率的评价指标) F-指标=2PR/(P+R) 关键问题 切分歧义(消解) ? 一个字串有不止一种切分结果 未登录词识别 ? 专有名词 ? 新词 切分歧义 1. 交集型歧义 字串AJB中,若AJ∈D、JB∈D、A∈D、B∈D , 则AJB为交集型歧义字段。此时,AJB有AJ/B、 A/JB两种切分形式。其中J为交集字段。 从小学 从小/学/电脑 从/小学/毕业 2. 组合型歧义 字串AB中,若AB ∈D、 A ∈D、 B ∈D,则AB为 组合型歧义字段。此时,AB有AB、A/B两种切分 形式。 中将 美军/中将/竟公然说 新建地铁/中/将/禁止商业摊点 切分歧义 3. 混合型歧义 同时包含交集型歧义和组合型歧义的歧义字段 人才能 这样的/人才/能/经受住考验 这样的/人/才/能/经受住考验 这样的/人/才能/经受住考验 交集型歧义、组合型歧义分布 中文文本中交集型切分歧义与组合型切分歧义的 出现比例约为1∶22[1] [1]刘挺、王开铸,1998,关于歧义字段切分的思考与实验。《中文信息学报》 [1]刘挺、王开铸,1998,关于歧义字段切分的思考与实验。《中文信息学报》 第2期,63-64页。 第2期,63-64页。 切分歧义 交集型歧义的链长 ? 交集型歧义字段中含有交集字段的个数,称为链长。 ? 从小学 链长是1 ? 结合成分 链长是2 ? 为人民工作 链长是3 ? 中国产品质量 链长是4 ? 部分居民生活水平 链长是6 ? 治理解放大道路面积水 链长是7 切分歧义 真实文本中交集型歧义字段分布[1]。 (510万新闻语料) [1] 中文文本自动分词和标注,刘开瑛著,商务印书馆,2000,66~67 [1] 中文文本自动分词和标注,刘开瑛著,商务印书馆,2000,66~67 歧义的分类 1. 真歧义 ? 歧义字段在不同的语境中确实有多种切分形式 ? 地面积 这

文档评论(0)

heti94575 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档