汉字识别中以词为分类单位分类器研究.pdfVIP

下载本文档

2
0
约7.08千字
约 6页
2017-08-14 发布于安徽
举报
版权申诉

汉字识别中以词为分类单位分类器研究.pdf

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉字识别中以词为分类单位的分类器研究方应谦张红旗曹守见牛光郑州电子技术学院203教研室450004 摘要汉字识别中，以往的分类器设计都是以字为单位的“字分类器”．字分类器的输出总是与待识字结构相似的一个候选字集合．这是使后级识别容易产生误识的主要原因．为克服字分类器的缺点，本文给出了以词为单位的词分类嚣设计的策略与方法，并实验验证了词分类器在分类率及分类速度方面均优于字分类器．关键词汉字识别，分类，词分类器 1．引言长期以来，汉字识别中的分类都是以汉语中的字作为基本单位．称作字分类。字分类的目的是产生每个待识字的候选字集合，然后将此候选字集合送识别级进行细识别。这种识别系统称为单字识别，单字识别是印刷体汉字或手写体汉字识别系统中普遍采用的策略。由于单字识别的能力有限【1】【2】特别是对脱机手写汉字识别，其识别率不可能作得很高。为了补救识别中产生的错误通常都在后处理中利用了一些语言知识进行纠错”r-I“。从本质上讲，这种利用语言知识的纠错，仍是建立在单字识别基础上的，受单字识别自身缺陷的制约。归纳起来，单字识别有以下缺点：从信息论的观点看，单字识别中，汉字的信息熵大，识别算法的信息开销大；从认知心理学角度看，单字识别没有利用汉字文本的上下文信息．识别速度与识别率较低；从识别系统的关键技术环节看，单字识别仅利用了汉字的光学特征，因此，无论采用哪种分类特征提取及匹配算法，待识字的候选字集合的汉字都是与待识字结构相似的汉字，这使细识别的算法复杂性急增，但识别率却难于大幅度提高，这也给利用语言知识进行识别的后处理带来不利．这是单字识别的识别率偏低的内因所在。为了克服单字识别的缺陷，将语言知识与识别过程结合起来，已引起了国内学者的重视161--191。本文给出了以词及短语(即词组)为分类的基本单位，将语言知识应用于粗分类这个关键技术环节的策略与方法，较好地克服了过去以单字为分类单位造成的缺点。 2．以词为分类单位的依据语言的基本单位应该说是“词”，而“字”可认为是语言的最小单位，汉语中的词，包括单字词及多字词，词按一定关系组合还可形成“短语”。(从信息处理的角度看，为了更清晰直观，本文把“单字词”及“单字”统称“单字”；“多字词”及短语一14】一统称“词”或“多字词”) 认知心理学的实验研究表明，人在阅读书面语言资料时，书面语言资料中含的多字词越多，阅读速度越快：而阅读非语言的杂乱单字资料(为测试比较而制作的资料) 时速度最慢。另一方面，在阅读书面语言资料中，词的词长越长，人在识别时容错能力越强【9J，这说明人在阅读书面资料时．长词较短词提取的识别信息量较少，而短词提取的信息量较单字少。由以上分析可知：以汉语中的“字”为单位设计的分类与识别算法，不符合人的认知心理规律，而以词作为分类与识别的单位设计分类与识别算法较符合人的认知心理规律。从理论上讲，按Shannon信息论的观点，设被识别汉字的集合为^r=伪p如…-．．，∥ 每个汉字的概率为P抽。)．iefi．2，……．n}．则汉字熵为 …………… 1，一善p(hi)l。舯i)……………… 对于单字识别系统，仅利用了汉字的光学特征，单字分类及识别时汉字集中每个汉字都是等概的，这时汉字的熵为： … …… ……．………… …… …… 』2=一logp(一J …．r9] 显然p厶，这说明单字识别算法的信息开销最大。实际上．汉字文本可以看成是一个觇arKov信源，设汉字集是一个胡l信源，即当前汉字的出现依赖于前m个汉字．则其发生概率表示为： p(Af／hi—l，hi一2，……，hi一。)jE以，z……，彬鱼卜kO．ke{1．2．……?In{ MarKov信源的状态数为夤矿，当旃女大时，信源状态数很大，若取m=l，此时信源有n 个状态，汉字的熵为：