- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字识别中以词为分类单位的分类器研究
方应谦张红旗曹守见牛光
郑州电子技术学院203教研室450004
摘要 汉字识别中,以往的分类器设计都是以字为单位的“字分类器”.字分类器的输
出总是与待识字结构相似的一个候选字集合.这是使后级识别容易产生误识的主要原因.
为克服字分类器的缺点,本文给出了以词为单位的词分类嚣设计的策略与方法,并实验
验证了词分类器在分类率及分类速度方面均优于字分类器.
关键词汉字识别,分类,词分类器
1.引 言
长期以来,汉字识别中的分类都是以汉语中的字作为基本单位.称作字分类。字分
类的目的是产生每个待识字的候选字集合,然后将此候选字集合送识别级进行细识别。
这种识别系统称为单字识别,单字识别是印刷体汉字或手写体汉字识别系统中普遍采用
的策略。 由于单字识别的能力有限【1】【2】 特别是对脱机手写汉字识别,其识别率不可
能作得很高。为了补救识别中产生的错误 通常都在后处理中利用了一些语言知识进行
纠错”r-I“。从本质上讲,这种利用语言知识的纠错,仍是建立在单字识别基础上的,
受单字识别自身缺陷的制约。归纳起来,单字识别有以下缺点:从信息论的观点看,单
字识别中,汉字的信息熵大,识别算法的信息开销大;从认知心理学角度看,单字识别
没有利用汉字文本的上下文信息.识别速度与识别率较低;从识别系统的关键技术环节
看,单字识别仅利用了汉字的光学特征,因此,无论采用哪种分类特征提取及匹配算法,
待识字的候选字集合的汉字都是与待识字结构相似的汉字,这使细识别的算法复杂性急
增,但识别率却难于大幅度提高,这也给利用语言知识进行识别的后处理带来不利.这
是单字识别的识别率偏低的内因所在。为了克服单字识别的缺陷,将语言知识与识别过
程结合起来,已引起了国内学者的重视161--191。本文给出了以词及短语(即词组)为分
类的基本单位,将语言知识应用于粗分类这个关键技术环节的策略与方法,较好地克服
了过去以单字为分类单位造成的缺点。
2.以词为分类单位的依据
语言的基本单位应该说是“词”,而“字”可认为是语言的最小单位,汉语中的
词,包括单字词及多字词,词按一定关系组合还可形成“短语”。(从信息处理的角度
看,为了更清晰直观,本文把“单字词”及“单字”统称“单字”;“多字词”及短语
一14】一
统称“词”或“多字词”)
认知心理学的实验研究表明,人在阅读书面语言资料时,书面语言资料中含的多
字词越多,阅读速度越快:而阅读非语言的杂乱单字资料(为测试比较而制作的资料)
时速度最慢。另一方面,在阅读书面语言资料中,词的词长越长,人在识别时容错能力越
强【9J,这说明人在阅读书面资料时.长词较短词提取的识别信息量较少,而短词提取的信
息量较单字少。由以上分析可知:以汉语中的“字”为单位设计的分类与识别算法,不符
合人的认知心理规律,而以词作为分类与识别的单位设计分类与识别算法较符合人的认
知心理规律。
从理论上讲,按Shannon信息论的观点,
设被识别汉字的集合为^r=伪p如…-..,∥
每个汉字的概率为P抽。).iefi.2,…….n}.则汉字熵为
……………
1,一善p(hi)l。舯i)………………
对于单字识别系统,仅利用了汉字的光学特征,单字分类及识别时汉字集中每个汉
字都是等概的,这时汉字的熵为:
… …… …….………… …… ……
』2=一logp(一J ….r9]
显然p厶,这说明单字识别算法的信息开销最大。实际上.汉字文本可以看成是一个
觇arKov信源,设汉字集是一个胡l信源,即当前汉字的出现依赖于前m个汉字.则其发生
概率表示为:
p(Af/hi—l,hi一2,……,hi一。)jE以,z……,彬
鱼卜kO.ke{1.2.……?In{
MarKov信源的状态数为夤矿,当旃女大时,信源状态数很大,若取m=l,此时信源有n
个状态,汉字的熵为:
文档评论(0)