国家社科基金项目计算语言学方法研究成果简介冯志伟执笔.pdfVIP

下载本文档

24
0
约 5页
2017-05-12 发布于广东
举报
版权申诉

国家社科基金项目计算语言学方法研究成果简介冯志伟执笔.pdf

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

国家社科基金项目计算语言学方法研究成果简介冯志伟执笔.pdf

载《国家社会科学基金项目成果选介》，2009年出版国家社科基金项目《计算语言学方法研究》成果简介冯志伟执笔项目批准号：03BYY019 项目名称：计算语言学方法研究成果形式：专著成果字数：498,234 字是否出版：因为有一些问题还不够成熟，还需要进一步研究，作者建议暂不出版项目负责人：冯志伟（教育部语言文字应用研究所）课题组成员：杨泉，胡凤国，张和友计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴边缘学科，涉及语言学、计算机科学、数学、心理学等部门。在计算语言学的发展过程中，提出了很多方法，这些方法，在理论上有一定的深度，在实践上有实用价值，值得引起我们语言学研究者的重视。但是，国内计算语言学界对于这些方法的研究基本上是支离破碎的，缺乏系统的总结，更缺乏理论上的分析。本课题在全面调查国内外计算语言学各种方法的基础上，对这些方法进行了系统的描述，并在理论上进行了深入的分析和概括，总结出规律性的具有方法论意义的认识。其主要内容分为七个部分。一、计算语言学的学科定位和主要方法这一部分首先从计算机处理自然语言的过程、计算语言学的范围以及计算语言学的历史三个角度来考察计算语言学的学科定位问题。从计算机处理自然语言的过程来考察它的学科定位，是从纵的角度来讨论；从计算语言学的范围来考察它的学科定位，是从横的角度来讨论。通过这种纵横交错的考察，我们对于计算语言学的学科定位就可以在共时的平面上得到比较清晰的认识。然后，我们再从计算语言学的历史来考察，也就是从发展的角度来讨论，这样，我们对于计算语言学的学科定位就可以在历时的平面上得到比较清晰的认识。对于计算语言学方法的研究，可以从方法论的角度来论述，也可以从语音、词汇、形态、句法、语义、语用研究中使用的方法来论述。从方法论的角度，计算语言学方法可以分为基于规则的方法（rule-based approach ）和基于统计的方法（statistics-based approach ）两个方面。基于规则的方法是理性主义的方法，基于统计的方法是经验主义的方法。这两种方法实际上并不是完全对立的，它们各有利弊，而且目前这两种方法有合流的倾向，它们正在相互结合起来，取长补短，相得益彰。本项目如果把基于规则的方法和基于统计的方法分割开来研究，很多问题将会纠缠不清，不便于论述。因此，本项目不采取这样的论述方式。本项目采取按照语言学学科分类的方式，从语音、词汇、形态、句法、语义、语用研究中使用的计算语言学方法来加以论述。分别讨论语音的自动处理方法、词汇的自动处理方法、形态的自动处理方法、句法的自动分析方法、语义的自动处理方法、语用的自动处理方法。在论述时，首先对于各个领域内计算语言学方法的发展历史进行简要的回顾，然后，再对各种具体的方法进行论述和分析。这样，计算语言学方法的研究便有了一个可靠的历史背景，我们对于各种方法的来龙去脉也就更加清楚了。二、语音的自动处理方法文本-语音转换（Text-to-Speech 简称 TTS ）的核心任务是以文本中词的序列作为输入，产生声学波形作为输出。自动语音识别（Automatic Speech Recognition ，简称 ASR ）的核心任务是以语音的声学波形作为输入，产生单词串作为输出。这一部分详细讨论了语音自动处理的主要方法：贝叶斯公式（Bayes formala）、噪声信道模型（Noisy Channel Model）、N元语法（N-gram Grammar）、隐马尔可夫模型（Hidden Markov Model，简称 HMM）等。这些方法成为了计算语言学中各种统计方法的基础。在标音方面，本项目采用了美国DARPA提出的ARPABET代替普通的国际音标 IPA，这种新的标音方法与 ASCII 码一致，便于在计算机上使用，也便于撰写电子文本和印刷排版。三、词汇的自动处理方法语言中的词汇具有高度系统化的结构，正是这种结构决定了单词的意义和用法。这种结构包括单词本身的固有的与上下文无关的语义特征以在文本中单词与单词之间语义关系特征。前者是单词的静态语义特征，后者是单词与单词之间的动态语义特征。对于单词的静态语义特征，这一部分从知识本体（on