蒙古文信息处理概述.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
蒙古文信息处理概述 那顺乌日图 (内蒙古大学蒙古学学院,010021) 摘要:蒙古文信息处理自20世纪80年代初开始至今,进行了一些基础工程建设和基础理论研究,也开 发过一些应用系统,例如,建立各种语料库、制定编码标准、进行蒙古语语法属性、语义属性研究,研制 蒙古语语法信息词典、开发蒙吉文电子出版系统和机器翻译系统等。由于蒙古语言文字不同于西方语言文 字和汉语言文字,蒙古文信息处理也有其明显的特点和独特的难点。蒙古文信息处理总体上可分为基础研 究和应用技术两大类。本文主要从这两个方面介绍蒙古文信息处理所走过的历程、取得的成绩、遇到的难 、 题和解决这些难题的方法。 关键词:蒙古文信息处理,基础研究,应用技术,概述 I引言 用计算机来处理蒙古语音、形、义等信息,也就是说在计算机里输入、输出蒙古文,识 别、分析、理解、生成蒙古语字、词、句子、篇章的过程就叫做蒙古语信息处理(Mongolian Information ‘ Processing)。 蒙古文信息处理自8Q年代裙开始至今,基本上完成了字处理阶段的工作,正在进行词 处理阶段的研究,同时也涉足句处理领域。在这期间,进行了一些基础工程建设,做过一定 的基础理论研究,也开发过若干个应用系统。由于蒙古语言文字不同于西方语言文字,也不 同于汉语言文字,所以蒙古文信息处理也有其明显的特点,也有其独特的难点。蒙古文信息 处理总体上可分为基础研究和应用技术两大类。所以本文也力图从这两个方面介绍蒙古文信 息处理所走过的历程,遇到的难题和解决这些难题的方法。 2基础研究 2.1蒙古文信息处理基础建设: 1983年内蒙吉大学和内蒙古计算中心合作把蒙古族历史巨著《蒙古秘史》输入计算机, 并匹配一套检索软件;其后不久内蒙古大学建立了《中世纪蒙古语语料库》和《现代蒙古语 文数据库》,在这一阶段主要采用以英文字母转写蒙古语的方法,如,MONGGOL.VNNIGVCA TOBCFYAN(蒙古秘史),并在蒙古语词干和构形附加成分之间、双词根词的两个词根之间、 连写的附加成分与词根之间、地名、人名之前都用人工做了标记。从8Q年代中期开始内蒙 古语委、内蒙古社科院等单位合作开展了现代蒙古语词频统计工作,并出版了“现代蒙古语 频率词典”。这项成果是,基于统计编纂的一部蒙古语词典。从1993年开始的蒙古文编码国 际标准的制定工作,经过中国、蒙古国、德国等国家和地区专家近6年的艰苦努力,2000 JTCl 年由tSO/tECSC2和UNICODE技术委员会讨论通过,并已收入10646编码字符集。 90年代起内蒙古社会科学院语言研究所结合“蒙古文整词输入法”的研制,在蒙古语词语 构成的算法化研究方面进行了有益的尝试。下厩介绍其中的主要成果: 2.1.1现代蒙古语文数据库 现代蒙古语文数据库的建立工作是从1984年开始的。1987年该课题被列入内蒙古自治 区“七五”社科重点项目,[988年获得国家社会科学基金的资助。经过六年多的努力,初 步建立了100万词级的《现代蒙古语文数据库》。数据库的语料分四大类:①蒙文教材:② 文学作品:③政治论著;④报纸。 328 数据库解决的主要技术问题:(1)蒙文音标输入法(拉丁化输入法)。采用这种方法解 决了蒙古文中一字多音、一音多形等不利于语文信息处理的问题,同时我们编制了由ASCII 码转换输出传统蒙古文、三种新蒙文、托忒文、满文和国际音标的专用程序。(2)同形、同 音词知识库。这是建立词汇表的基础,它主要解决蒙古语为数庞大的同形、同音词:(3)确 定单词词类的产生式规则集。这套规则集可以自动处理一部分单词的词类。它不仅对调节本 数据库的时空关系起到了良好的作用,而且对进一步研究自动识别复合词、附加成分等提供 了方便;(5)几种hash函数和机器辞典。这些函数和词典是在自动校对、音节划分、+确定 单词词类等过程中采取的主要措施。这些hash函数的采用,也提高了数据库的运行速度。 为了给《现代蒙古语文数据库》建立一个实用环境,我们首先研制了《多种文字I/O系 统》。因为这个系统的输入方式直接采用了ASCII码键盘

文档评论(0)

cvde43ds5f3f4 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档