印刷体汉字的分类和识别.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
印刷体汉字的分类和识别

相关系数 返回 指数相似系数 返回 非负特征相似度 返回 二值特征相似度 二值特征向量的分量只能取值0或1。 二值特征分量有四种基本匹配 二值特征向量有四种匹配特征数 二值特征向量有五种常用相似度 返回 四种基本匹配 设二值特征向量x和y的第i个分量为xi和yi, 如果xi =1且yi=1,则称xi和yi (1-1)匹配; 如果xi =1且yi=0,则称xi和yi (1-0)匹配; 如果xi =0且yi=1,则称xi和yi (0-1)匹配; 如果xi =0且yi=0,则称xi和yi (0-0)匹配; 返回 四种匹配特征数 (1-1)匹配特征数: (0-1)匹配特征数: (1-0)匹配特征数: (0-0)匹配特征数: 所选特征总数n=a+b+c+e 返回 五种常用相似度 Tanimoto系数 Rao系数 简单匹配系数 Dice系数 Kulzinsky系数 返回 Tanimoto系数 表示二值特征向量x和y共同具有的特征总数和分别具有的特征种类总数之比。返回 Rao系数 表示二值特征向量x和y共同具有的特征总数和所选特征总数之比。返回 简单匹配系数 表示二值特征向量x和y同时具有或不具有的特征总数和所选特征总数之比。返回 Dice系数 返回 Kulzinsky系数 表示二值特征向量x和y共同具有的特征总数和单独具有的特征总数之比。返回 相似度计算举例 计算“汉”和“字”点阵向量的角度相似性以及5种二值特征相似度。 相似度计算结果 角度相似系数= 0.327165 Tanimoto系数=0.195402 Rao系数=0.066406 简单匹配系数= 0.726563 Dice系数= 0.326923 Kulzinsky系数=0.242857 返回 课堂练习 1.计算abc和cacbc之间的编辑距离; 2.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)之间的曼哈顿街区距离、切比雪夫距离和3阶闵可夫斯基距离; 3.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)的角度相似系数。 返回 编辑距离的计算 返回 Ed(0,0)=0 Ed(1,0)=1 Ed(2,0)=2 Ed(3,0)=3 Ed(4,0)=4 Ed(5,0)=5 Ed(0,1)=1 Ed(1,1)=1 Ed(2,1)=1 Ed(3,1)=2 Ed(4,1)=3 Ed(5,1)=4 Ed(0,2)=2 Ed(1,2)=2 Ed(2,2)=2 Ed(3,2)=2 Ed(4,2)=2 Ed(5,2)=3 Ed(0,3)=3 Ed(1,3)=2 Ed(2,3)=3 Ed(3,3)=2 Ed(4,3)=3 Ed(5,3)=2 c a c b c c b a 课后练习 编程计算任意两个序列之间的编辑距离,并针对下面两组序列: aaabbbcccdddeee,eeedddcccbbbaaa liyujian和个人姓名的小写汉语拼音(不含空格) 在结果中给出所需的插入、删除及替换次数。有兴趣还可随机选择一些其他字符序列对程序性能进行测试和分析。 返回 第8讲 印刷体汉字 的分类和识别 要点: 印刷体汉字的分类 印刷体汉字的识别 课堂练习 课后练习 印刷体汉字的分类 印刷体汉字分类的必要性 印刷体汉字分类的基本要求 印刷体汉字分类举例 印刷体汉字分类的方法 返回 印刷体汉字分类的必要性 由于汉字数量大,如果不对汉字分类而直接识别,一方面识别效果不会好,另一方面计算量往往会很大。 汉字识别通常都要对汉字做一级或多级分类,然后再细分判别,从而大大提高识别效率。 返回 印刷体汉字分类的基本要求 粗分类的正确分类率和分类稳定性要高。文字识别是先粗分类,然后再细分。粗分类的正确与否会影响到后面的识别。 粗分类的速度要快。这要求分类的算法简单,同时要求分在各个类别中的汉字的数目比较平均,从而提高分类的效率。 返回 印刷体汉字分类举例 在下图中,“3”所代表的文字不仅在类别A中,也可能同时在类别C中。在细分判别A和C类中的文字时应同时考虑“3”所代表的文字。返回 印刷体汉字分类的方法 采用复合特征的分类 多级分类 返回 采用复合特征的分类 选用N种具有互补特征作为类特征 在学习阶段,对训练样本进行N次互不相关的分类,然后组合N次分类结果,完成特征空间的划分。 分类时,根据待分字的特征进行N次分类,组合分类结果求得子类。 返回 多级分类 学习阶段,对训练样本进行多级分类,每一级分类是在上级分类基础上进行的;分类时重复上述多级分类过程。 树分类是一种典型的多级分类,具有效率高的特点,但是汉字字数多会造成分类树结构庞大,使得分类不够稳定。 返回 印刷体汉字的识别 在选取特征之后,需要选择或寻找适当的判别准则

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档