- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于平行语料库的双语术语抽取系统研究.doc
基于平行语料库的双语术语抽取系统研究
摘 要: 针对双语术语抽取系统在处理多种语言时大量耗费人力、财力、物力等的局限性问题,提出基于平行语料库的双语术语抽取方法,同时,分析此方法的不足,结合多种方法进行改善。在此基础上开发了一个双语术语抽取系统,并通过实验分析了相似度函数、语料规模以及改进后方法对术语抽取结果的影响,而且该系统已经作为商品化软件投入实际应用。
关键词: 平行语料库; 词对齐; 共现矩阵; 相似度函数; 双语术语抽取
中图分类号: TN911?34; TP391.7 文献标识码: A 文章编号: 1004?373X(2016)15?0108?04
Abstract: Since the bilingual terminology extraction system exists the limitation problems of consuming massive manpower, financial resources and material resources while treating with multilingual languages, the bilingual terminology extraction method based on parallel corpus is put forward. The shortcomings of this method are analyzed, and improved with a variety of methods. On the basis of the above, a bilingual terminology extraction system was developed. The similarity function, corpus scale, and the effect of the improved method on terminology extraction results are analyzed with the experiment. The extraction system was put into practical application as a commercial software.
Keywords: parallel corpus; word alignment; co?occurrence matrix; similarity function; bilingual terminology extraction
0 引 言
术语是人类智慧和知识的结晶,包含着丰富的信息,双语术语自动抽取任务早已引起学术界和工业界广泛的关注[1]。同时,随着全球化进程的推进,各国之间越来越迫切地要求知识和技术的交流,而术语作为知识最核心的载体,其相互翻译恰恰成为了各国间知识、技术交流的最大障碍之一[2]。所以,实现双语术语自动抽取,对于双语术语词典的构建和跨语言检索都有重要的意义。
本文介绍了用基于相似度函数的方法生成对齐词典的过程并分析其不足之处,融合了多种方法提高双语术语抽取的准确率,在此基础上开发了一个双语术语抽取系统并做了三方面的实验:不同的相似度函数对最后抽取结果的影响、不同的语料规模对最后抽取结果的影响以及改进方法对双语术语抽取准确率的影响。
1 基于相似度函数的对齐词典生成
1.1 词典生成的过程
对齐词典的生成以双语平行语料库为基础,采用相似度函数计算双语中不同词语之间的关联程度,把关联程度最强的词语作为对齐词典的词对[3?4]。整个过程主要分为语料预处理、语料编码、生成对齐矩阵和生成对齐词典四个步骤。
1.2 对齐词典存在的问题及其他对其方式尝试
仅仅用源语言中的每个词(包括抽取出来的候选术语)与目标语言的每个词(也包括候选术语)进行对齐,取得的效果并不理想,原因主要集中在以下几个方面:单语术语抽取并不能穷尽所有的术语词;很多中文多词术语对应的英文术语只有一个词;有些中文术语,在英文中根本就没有固定的翻译以及通过分析生成的对齐词典,中文术语与英文单词的对齐概率总比中文术语与英文多词术语的对齐概率要高[5?6]。
基于上述对齐词典存在的问题,为了让对齐的效果更好,本文对多种不同的对齐方法进行尝试,虽然最后的结果不够理想,不能达到实际应用的目标,但是为找出能够解决上述问题的方法做了铺垫。
基于窗口匹配和相似函数的方法:经过大量实验,但结果并不理想,原因包括:共现矩阵太大;处理时间增长;很多正确的但不满足条件的词没能被抽取出来。
迭代对齐法:该方法通过不断迭代,直到满足条件才停止。通过实验证明
文档评论(0)