信息科学技术领域术语自动识别策略.pdfVIP

信息科学技术领域术语自动识别策略.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息科学技术领域术语自动识别策略 穗志方 (北京大学计算语言学研究所,北京100871) 兰圣至壁2塞坠:皇垒婪:曼璺 摘要:术语的自动识别是机器翻译、信息检索以及实现领域术语库的及时更新、建立互联网上 术语信息服务的重要手段.本文结合“信息科学技术领域术语辅助提取及术语库的建设”项目的 实践,介绍了我们正在研究之中的术语自动识别的总体策略,即:在提取阶段,把置信度较高的 术语候选首先提取出来建造领域词库:在识剐阶段对那些置信度不高的术语候选,结合更多的上 下文信息和篇章结构信息进一步确认.通过术语提取和术语识别的分阶段进行,可以在保证识别 准确率的前提下提高识别系统的运行效率。 关键词:术语提取;.术语识别;术语信息服务 1项目的背景 随着科学技术的迅猛发展,新理论、新概念、新材料、新技术、新工艺不断涌现,与之同步 产生的新的科技术语层出不穷,例如:“蓝牙”、“扩容”、“功放”、“背投”等。这些科技新术语 的产生和传播速度之快、渠道之多、数量之大前所未有。大多数人对这些新术语所表示的概念和 知识了解不够,如果不及时发现、收集并解释这些新术语,势必会影响科技信息在大众之中的广 泛理解和传播。新术语带来的另一个问题是:这些术语在使用过程中用法混乱,同一概念常常会 有多种表示(例如:“互联网”、“万维网”、“因特网”,甚至直接采用英文“Internet”:“两千年 问题”、“千年虫”、“Y2K”等),同一形式的表示又可能指称不同的概念,并且大陆与港台地区之 间由于语言习惯不同也会造成很多差异。这些情况不仅影响科技信息的理解和传播,同时也给学 术交流带来不便,成为中国与国际接轨的障碍。因此,在中国进行科技术语库的建设、进行术语 规范化以及建立面向社会开放的术语信息服务已经成为当务之急。 在这一目标的驱动下,北京大学计算语言学研究所与中国标准研究中心合作于2001年12 月一2002年12月承担了“信息科学与技术领域术语辅助提取及术语库的建设”项目。该项目选 择技术发展最迅猛、对于术语规范化要求最迫切的信息科学与技术领域为突破口,制订该领域的 术语库建设标准、建立该领域的术语库、语料库以及开发该领域的术语自动提取软件。 建设科技术语库的第一步需要及时发现新出现的科技术语。项目实施的前半期我们进行了信 息科学与技术领域术语的自动提取研究,从5000万语料中提取出相关术语候选超过8万条,对 实验结果的初步分析表明,该方法能够发现大量的新术语,对于领域术语库的更新具有明显的帮助【穗 志方,2002】。 然而,自动提取出的只是术语的候选。在这些候选中,有些是术语,有些不是术语,有些是 长术语的一个片段,还有一些在特定上下文中出现时是术语,在其它语言环境下出现时不是术语。 这些提取出的术语候选在脱离上下文后,即使人工校对也存在困难。因此,对于这些术语候选, 必须进一步利用它们在特定文本中的上下文信息以及篇章结构信息进行确认,即进行术语的自动 识别。 本文将介绍如何将术语提取与术语识别配合起来进行术语的自动识别。 2术语自动识别的总体思路 2.1术语的定义、特点及分类 318 ·术语的定义 15237.1——.2000《术语工作词汇》的定义,术语是 据中华人民共和国国家标准GB/T 在特定专业领域中一般概念的词语指称。 · 术语的特点——结合紧密性、语言完备性和领域性 分析以上对于术语的定义可以发现,术语首先是一种结合紧密的固定或半固定的词或短语, 它应该是语言学上成立的词语。进而,它与一般词语又是有区别的,区别之处主要在于它是在特 定的专业领域中使用的,是一种具有很强的领域特征的词语。因此,术语具有结合紧密性、语言 完备性和领域性这三个特点。 · 术语的分类一一单词术语和多词术语 术语可以分为由一个词组成的单词术语(例如:“集群”、“蓝牙”、“物流”等)和由多个词 组成的多词术语(例如:“目标函数”、“数字集群通信”、“片式多层陶瓷电容器”等)。 单词术语的特点是结合紧密,具有很强的领域性,但难以利用语言结构信息来判断它的语言 完备性;多词术语一般可以利用其组成成分的语言结构信息(例如:词性搭配规则等)来判断它 是否具有语言完备性,但其组成成分之间的结合程度

文档评论(0)

cvde43ds5f3f4 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档