在训练语料中.PDFVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在训练语料中

Outlines 词类问题概要 词性标注问题 隐马尔科夫模型 其他词性标注模型 1 什么是词性标注 词性标注(Part of Speech Tagging, POS) 对文本中每一个词赋予相应的词性标记,包括对 标点符号的标记。它代表了一个词的语法特征, 也称语法标记、词语附码。 实现/v 祖国/n 的/u 完全/a 统一/vn ,/w 是/v 海内外/s 全体/n 中国/ns 人/n 的/u 共同/b 心 愿/n 。/w 采用北京大学的词类标记集 计算语言学界区分地不如语言学界明确,词类和 词性往往混用。 词类问题 什么是词类(part of speech ) 词语的语法范畴 实词:名、动、形、数、量、代、副 虚词:介、连、助、叹、拟声 划类标准 意义:动词表示行为动作,等 根本的标准 问题:表示行为动作的不一定是动词,如“战争、战斗” 形态:名词单复数、动词时态变化、形容词比较级,等 印欧语系主要以形态为标准 功能:主谓宾定状补 问题:汉语比较复杂,约定的比例较高 词类略例 特征词方法: 不+ 很+ 名词n 不人 很人 动词v 不去 很去 形容词a 不好 很好 副词d :修饰动词和形容词的词(很、太、特、经常) 介词p :在(方位词f :上、下、里、外) 连词c :和、与、同、而且、除非 助词u :的、地、得、着、了、过 语气词y :呢、吧  叹词e :哎呀 拟声词o :滴答 词类-标记集-语料库 标记集(国内外很多套方案) 考虑标点w、非词的字x 类别的颗粒度:少的十几个词类,多的100多类(大类下 分小类,如心理动词“想”、行为动词“走” ) 特定语料库只按一种标记集,但都有杂质 理论不完善:出版/v ? 这本书的出版 v ,vn 文本错误、标注错误:山版/n 策略 进一步,挖掘语料库的不一致提交人工校正,或自动聚类 技术得到新的词类标记集 退一步,认为语料库是全对的 2 词性自动标注问题(兼类词) 把 门 锁 上 p n v v v n f n 如果用NGram如何标注 1Gram: 仅使用P(w ,t ),3*1*2*2条路径上的单 i i 源最短路径(可以作为Baseline ) 2Gram:P(w ,t )*P(w ,t |w ,t ),也可求得最短 i i i i i-1 i-1 路径 存在的问题 P(w ,t |w ,t ) ,在训练语料中,出现的太少, i i i-1 i-1 数据太稀疏 理论上说,词典规模*词典规模的矩阵,齐夫 定律的普遍存在,使得训练语料扩大也是徒劳, 低频事件的种类占到语料库规模的一半 解决思路 P(w ,t |w ,t )的处理 i i i-1 i-1 采用贝叶斯公式和隐马尔科夫模型 贝叶斯公式(Bayes’ Law)  由条件概率到贝叶斯  由P(A|B)=P(AB)/P(B)  得P(AB)=P(A|B)*P(B)  因此P(B|A)=P(AB)/P(A)=P(A|B)*P(B)/P(A)  伟大的贝叶斯公式诞生了 * arg max P (A | B)P (B) arg max

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档