面向未切分文本领域术语抽取技术研究-毕业论文.doc

面向未切分文本领域术语抽取技术研究-毕业论文.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国内图书分类号:TP391.1 国际图书分类号:681.37 工学硕士学位论文 面向未切分文本的领域术语抽取技术研究 硕 士 研究生: 导 师: 副 导 师: 申请学位级别: 学 科、专 业: 所 在 单 位: 答 辩 时 间: 授予学位单位:  刘娟 王晓龙 教授 刘远超 副教授 工学硕士 计算机科学与技术 计算机科学与技术学院 2008年 6月 哈尔滨工业大学 Classified Index: TP391.1 U.D.C.: 681.37 Dissertation for the Master Degree in Engineering RESEARCH ON AUTOMATIC ACQUISITION OF DOMAIN TERMS FROM UNSEGMENTED MATERIALS Candidate: Supervisor: Associate Supervisor: Academic Degree Applied for: Specialty: Affiliation: Date of Defence: Degree-Conferring-Institution:  Liu Juan Prof. Wang Xiaolong Associate Prof. Liu Yuanchao Master of Engineering Computer Science and Technology School of Computer Science and Technology June, 2008 Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 摘要 领域术语自动抽取是自然语言处理中的一项重要任务,特别是中文术语 的自动抽取是中文信息处理的一项基础性的课题,术语抽取可以应用到领域 本体构建、专业有哪些信誉好的足球投注网站、文本分类、类语言建模等诸多领域中,为进一步细致 处理自然语言研究的各个问题,构建一个领域术语自动获取系统是十分重要 的。 本文分析了目前已有的术语抽取技术,结合汉语术语的特点,提出了一 种从原始未切分文本中自动抽取领域术语的方法。主要研究工作如下: 第一,本文对汉语术语的抽取进行了一定的研究,并对统计模型和规则 模型进行了分析和比较,设计了一个统计方法和规则方法相结合的汉语专业 领域术语抽取算法,并具体实现了领域术语的抽取。该方法将规则模型和统 计模型有机的结合起来,避免了单纯使用一种方法进行术语抽取的局限性, 有效地实现了领域术语的抽取。 第二,系统在用统计方法抽取候选术语之前,利用规则的方法对要处理 的文本进行了预处理,主要包括仿词处理、标点符号和停用字的过滤。实验 证明,这对于提高整个系统的效率是有帮助的。 第三,本文比较分析了已有的统计参数的优缺点,提出了用信息熵和似 然比两个统计参数结合进行领域术语的抽取的算法。实验结果表明,把这两 个统计参数结合起来可以充分发挥两个参数的优点,取得了较好的效果。 第四,本文利用通用词典过滤掉高频通用词汇并用置信度的方法对最后 的候选术语进行过滤筛选,过滤掉候选术语中很多没有意义的字符串,进一 步提高了领域术语抽取的准确率。 本文的领域术语的抽取系统既不需要分词及词性标注,也不依赖于专业 词典,不限于某一个领域,不需要语料库训练,操作简单且易于实现。该系 统对计算机领域和金融领域两个领域的语料进行了实验,并对计算机领域的 抽取结果进行了分析,其中候选术语抽取的准确率为 72.8%,实验结果表明, 利用论文中提出的方法可以准确有效地抽取出特定领域的专业术语。 关键词  术语自动抽取;领域术语;信息熵;似然比;中文信息处理 -I- 哈尔滨工业大学工学硕士学位论文 Abstract Automatic domain term extraction is an important task in natural language processing; especially Chinese Automatic Term Extraction is a fundamental issue in Chinese Information Processing, which can be applied to domain ontology construction, vertical search, text classification, class-based language model etc. In order to solve the various issues in natural language processing more meticulously, it is important to con

文档评论(0)

nnh91 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档