基于联合音变还原和形态切分的形态分析方法JointVoiceHarmony.PDFVIP

基于联合音变还原和形态切分的形态分析方法JointVoiceHarmony.PDF

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于联合音变还原和形态切分的形态分析方法JointVoiceHarmony.PDF

基于联合音变还原和形态切分的形态分析方法 摘要:传统的形态分析方法,一般是先进行音变还原工作,再进行形态切分工作。音变还原工作的好坏直 接影响形态切分工作的优劣,两者之间存在错误传播的问题。鉴于传统形态分析方法存在的错误传播问题, 本文提出了基于联合音变还原和形态切分的形态分析方法。该方法通过使用具有双重功能的联合标签,同 时实现了音变还原及形态切分的功能。由于该方法不依赖于黏着语的特有的语言学规则,因此便于扩展到 新的语言上。结果表明,联合音变还原和形态切分的形态分析方法要优于传统的先进行音变还原后形态切 分的形态分析方法,能够很好的解决先音变还原后形态切分带来的错误传播问题。 关键词:形态分析,音变还原,形态切分 中图分类号:TP391 文献标识码:A JointVoiceHarmonyRestorationandMorphologicalSegmentationfor MorphologicalAnalysis Abstract: In order to solvethe problem of errorpropagation in traditional morphological analysis method which carriesoutthevoiceharmonyrestorationproblematfirstandthenthemorphologicalsegmentation,thispaperpresentsa unionmethodcombiningvoiceharmonyrestorationandmorphologicalsegmentation.Thismethodmakesuseofunion labelwithdoublefunctions.Itrealizesthevoiceharmonyrestorationandmorphologicalsegmentationatthesametime. Experimentsshowthattheunionmethodcanimproveprecisioncomparedtothetraditionalmethodanditcansolvethe problemoferrorpropagationintraditionalmorphologicalanalysismethod. Keywords:Morphologicalanalysis,voiceharmonyrestoration,morphologicalsegmentation 1引言 黏着语是一种通过在词干基础上粘贴不同的词缀来实现语法功能的语言类型。我国的很 多少数民族语言,如维吾尔语、蒙古语、哈萨克语、朝鲜语等都属于黏着语。黏着语在我国 分布广泛且使用人口众多,分布地区具有较高的政治经济价值。黏着语每个词的变化形式最 多可达数百种,甚至上千种。现有主流的机器翻译方法基本上不考虑词形变化,把每个不同 词形的词都当成独立的词语来考虑。但是对于黏着语而言,这种做法就会带来比较严重的问 题。因为这类语言的词语变化非常灵活,形式多样,这样会导致机器翻译时出现大量未登录 词,严重影响机器翻译的性能。 黏着语形态分析一般包含音变还原和形态切分两个子任务。音变还原是黏着语形态分析 中的重要基础处理环节。音变现象是词干与词缀连接时发生弱化、增音、脱落等现象。据统 计(如下表1),可以看出,音变现象在三种语言中广泛存在。音变现象使形态分析工作变 得更加困难,音变问题解决的好坏直接影响后续的形态分析工作。音变还原现象研究界关注 较少,艾山・吾买尔等人[18]提出基于噪声信道的识别模型,该模型以弱化的词干词尾的二 个字符、三个字符以及最后音节作为上下文,建立相应的语言模型以及似然度计算公式来解 决音变现象问题。麦热哈巴・艾力等人[20]提出了基于最大熵模型的音变还原模型,该模型 主要基于词性标注工作的思想,首先找出每一个维吾尔语字母可能对应的集合,然后通过维 特比算法对维吾尔语字母进行线性序列标注,这种方法避开了总结和制定音变现象复杂的规 则。然而上述方法只考虑了当前字母的上下文环境,未考虑形态切分任务对于音变还原的影 响,并且音变还原很难做到百分之百的准确率,存在错误传播的问题。 Table1Thestatisticsofvoiceharmony 1

您可能关注的文档

文档评论(0)

zcbsj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档