- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于信息处理的乌兹别克语语音变化现象自动还原技术研究 摘要:语音变化现象的自动还原是词干提取的基础。为了提高词干提取的准确率,本文深入研究乌兹别克语中的语音变化现象,并提出音变现象的自动还原模型。分析乌兹别克语中发生语音变化的词干本身的特征,设计音变现象的还原模型,并结合了词干库配对方法来实现自动还原。实验以乌兹比克斯坦的官方网站()截取的语料为实验对象,验证处理模型的有效性。 关键词:乌兹别克语;语音脱落;语音同化;增音 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)32-0177-03 乌兹别克语属于阿尔泰语系突厥语族,是个典型的黏着性语言。语法特征名词跟不同词缀连接表示不同的语法意义。乌兹别克语中常见的音变现象有音的同化、脱落、增音等[3],上述三种变化已体现在文字上。语音变化是指因发音器官的制约和发音方便的需要,在连续发音中会受前后音的影响而发生的变化。所以语音变化的处理是乌兹别克语文字信息处理、乌-维机器翻译、跨语言信息检索等自然语言处理的重要环节。语音脱落是指名词词干末尾连接固有的构形词缀时,词干中的元音或辅音会脱落。如:“shahar城市”这个名词词干末尾连接名词的领属词缀时词干“shahar”中第二个音节里的元音“a”会脱落,即shahar+i=shahri(他的城市)。语音同化是指有些固有的名?~末未连接构形词缀时,词干末尾的辅音换另一个辅音。如:tilak+im = tilagim(我的愿望)。增音是指部分名词末未连接构形词缀时,词干和词缀之间会增多一个音,这种现象叫做增音。如:orzu+ing=orzuying(你的梦想)。这种语音变化现象对乌兹别克语名词词干提取增加难度,降低词干提取的准确率。所以,在处理乌兹别克语中发生的语音变换现象是乌兹别克语名词词干提取的基础、重点,也是最基本的前提。 1 相关工作 在音变还原的研究领域上,属于突厥语族的维吾尔语进行的工作比较广阔。文献[1]中指出,维吾尔语词干在接词缀时按维吾尔语语音和谐规律有些语音会发生弱化、脱落、增音等现象。该论文提出了一种自动还原模型,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。思路是:维吾尔语词被看作是所包含语音的线性序列,先假设音变现象会发生在每个语音上,那么构成一个词的语音序列中每 一个语音就可以有 n ( 0≤ n ≤31)个原形候选,找到它们的原形就类似于词序列自动标注,再利用序列标注的方法即可解决还原问题。文献[4],重点研究维吾尔语中弱化现象及处理算法,并分析了维吾尔语词法结构、音节结构、词干―词缀连接形式等技术。处理弱化问题时,要根据词干库检查弱化属性,并根据语音和谐规律分析是否正确连接。该算法在文本检索、词频统计、文本校对等研究领域得到很好的应用。运行结果表明该算法具有可行性和有效性,并在实践中不断完善。 2 乌兹别克语语音变化现象分析 2.1乌兹别克语语音脱落、同化、增音现象的分析 1)语音脱落 ①元音脱落:有些以辅音字母结尾的双音节名词词干末尾连接领属词缀“i,im,imiz,ingiz,ing”时,第二个音节里的元音字母会脱落。这种脱落字母有“u,i,a”等三个。如: Burun(鼻子)+i=burni(他的鼻子), shahar(城市)+im=shahrim(我的城市),qorin(肚子)+im=qornim(我的肚子) ②辅音脱落:乌兹别克语里的“men”和“sen”等两个人称代词末尾连接宾格词缀“ni”、领属格词缀“ning”和词缀“niki”时,这些人称代词词尾的辅音“n”就会脱落。如: Sen(你)+ni=seni(把你),men(我)+ni=meni(把我),men(我)+niki=meniki(我的) 2)语音同化 ①以“q”结尾的多音节名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干末尾的“q”同化为“g’”,然后继续连接词缀。如: Quloq(耳朵)+im=qulog’im(我的耳朵),barmoq(手指)+ing=barmog’ing(你的手指),oyoq(鞋子)+i=oyog’i(他的鞋子) ②以“k”结尾的多音节名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干末尾的“k”同化为“g”,然后继续连接词缀。如: Ertak(童话)+ing=ertaging(你的童话),istak(欲望)+im=istagim(我的欲望),tilak(希望)+i=tilagi)(他的希望) 注:单音节词、外来
您可能关注的文档
最近下载
- 蒸压加气混凝土砌块施工技术课件.ppt VIP
- 沥青路面再生利用项目可行性研究报告项目建议书.docx
- 医学课件-老年卧床患者压力性损伤的预防和护理进展.pptx
- 电力系统经济学原理习题解答 全.doc VIP
- 数据中心机房工程施工组织设计方案.pptx VIP
- 传统文化与修身(鲁东大学)知到智慧树章节答案.docx VIP
- 湖南文艺出版社(2024)新教材小学二年级音乐上册第五课《草原就是我的家》精品课件.pptx VIP
- 益智课堂数字华容道教学课件.pptx VIP
- (2025秋新版)部编版二年级道德与法治上册《第8课 我为班级作贡献》教案.docx VIP
- 尼科尔森《微观经济理论-基本原理与扩展》(第9版)课后习题详解(第18章--不确定性和风险厌恶).doc VIP
文档评论(0)