- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种混合的中文文本校对方法①-中文信息学报
中 文 信 息 学 报
第 12 卷 第 2 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo1. 12 No. 2
一种混合的中文文本校对方法①
于 勐 姚天顺
ics @ramm . neu . edu . cn
110006 东北大学 信息工程学院计算机科学系
摘要 本文以模式匹配的方法和 3 元文法分析的方法为基础 ,结合语法属性标注和分
析的方法 ,提出了一种混合的中文文本校对方法 ,其结果优于任何一种方法的单独应用 。
本文描述了这种方法并将它和其它两种方法进行了分析对比。
关键词 中文校对 n 元文法 自然语言处理
一 、简 介
中文校对是一个比较具有挑战性的课题 。例如中文词汇之间没有类似英文词汇之间
的明显的边界分隔;一个多字词中的一个错误可能产生多个有意义的词汇 ;再如中文语法
现象也要比英文丰富和复杂的多 ,等等 。见下面的例子 :
( )
例 11 : 中华人民解放军 应为中国人民解放军
这个例子中产生了两个有意义的词汇 ,而且是一个结构正确的短语 。
两种主要的方法被证明可以有效地用于中文校对 ,一种是模式匹配的方法 ,一种是 n 元文
法分析的方法 。两种方法应用于文本校对有着各 自的适用范围。前者适用于发现和改正
具有固定模式的错误 ,例如一些专有名词和成语中的错误 ;后者适用于发现文本中局部的
语法语义错误和一些不适当的词语搭配 。进行文本校对最初也是最直接的方法是基于模
式匹配的方法 , 即利用错误模式 S1 和正确模式 S2 的直接对应关系对文本进行查错和校
对 。
( )
例 12 :我们应该尽早布署好今年的生产工作 。 布署应为部署
这是一个中文文本中常见的错误 。如果我们事先定义了错误模式“布署”和正确模式
“部署”我们就能通过模式匹配的方法发现和纠正这个错误 。
( )
3 元文法 t rigrams 分析的方法曾经被从英文的校对方法中借鉴来用于中文校对 ,一种
典型的应用形式就是混淆集 的方法 。这种方法要求预先给 出常见错误词汇 的混淆集
(Confusion set ) 。然后 ,根据混淆集中词汇与上下文出现的词汇的概率连接强度选出最优
的词汇作为候选词汇 ,这种方法曾经由 Schabes[ 1995 ]在研究工作中实现并给出了分析结果 。
① 本文 1997 年 5 月 27 日收到
3 1
例如 :
已知混淆集 S = {布 ,部} ,对于例 12 中的句子根据预先对语料的统计结果可以知道句
子中的“布”与“署”具有比较低的概率连接强度 ,因此知道应该是“部署”而不是“布署”。
单纯靠混淆集和计算词汇概率连接强度的方法对统计的语料要求是苛刻的。例如 :
例 13 :小王和小李都来上班 。
这是一个正确的句子 ,但一般的单纯统计方法都会对这个句子产生误报 , 因为即使是
较大规模的语料也很难枚举出连词“和”所有的上下文连接情况 , 比如还可能是小张和小
刘 ,黄瓜和白菜等等 。同样的情况还适用于大部分虚词 。
另外 ,混淆集的方法要求预先知道常见错误词汇的混淆集 ,这在实际应用中是比较困
难的 ,因为真实语料中的错误是千变万化和难以预料的 ,例如 :
( )
例 14 :一个姓了的朋友 应为一个姓陈的朋友
这种错误是由于使用某种输入法时的输入错误造成的。这种错误就不能通过混淆集
的方法发现 ,因为不可能枚举出所有可能的输入错误 。
同样的原因 ,简单的靠模式匹配将文本中所有出现的字符串 S1 替换成字符串
文档评论(0)