联机藏文手写识别概述.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
联机藏文手写识别概述 吴健 孙嫣 中国科学院软件研究所 基础软件国家工程研究中心 摘 要 准备工作 手写识别过程 联机藏文手写识别的预处理 联机藏文手写识别特征提取 聚类 实验方法和结果 准备工作 藏文文字的组成 藏文的字符集编码标准 GB/T 16959-1997《信息技术 藏文编码字符集 基本集》 GB/T 20542-2006《信息技术 藏文编码字符集 扩充集A》 准备工作 藏文字丁的书写特点 基本处理单元的选择 藏文文字的结构特点 相关国家标准 识别编码范围 《基本集》和《扩充集A》在内的910多个字丁,剔出掉了不常用的梵文字符 准备工作 联机藏文手写识别的研究基础 参考结构文字的联机特征提取方案还是拼音文字的联机特征提取方案? 藏文识别相对于汉字识别的特点 宽高比1:2 笔画方向性 圈、弧状结构 准备工作 藏文手写识别难点 易混淆字过多 印刷体相似字 手写体相似字 联机藏文手写识别流程 识别基本流程 预处理了 对手写输入的字符在字形上进行修正,减少同类字符输入样本间字形上的变异。是保证特征提取和识别算法的有效性的前提。 特征提取 根据经过预处理后的联机手写字符,提取出相对于位移、大小、旋转、变形等具有不变形的模式特征。 联机藏文手写识别的预处理 预处理主要操作 线性归一化,减少字符大小的变异。 加入虚拟点,使字的每个笔画的点密度相同。 非线性归一化,减少笔划形状的变异(笔画太长、太短,笔画太集中等)。 重采样,减少点的间距的变异以及笔划上点的数目的变异。 点的平滑,去除笔画上的噪点。 联机藏文手写识别的预处理 联机藏文手写识别的预处理 非线性归一化方案的选取 基于线密度 基于交叉距离 基于点密度 联机藏文手写识别的预处理 对基于点密度的非线性归一化方案的改进 笔画断裂、笔画间不连续的原因 直方图投影变化剧烈 解决方案 联机藏文手写识别的预处理 笔画等距离采样和平滑 基本作用都是为了消除噪音。 应用在非线性归一化操作之后,除了能消除手写字符本身由于抖动带来的噪音以外,还可以消除由于预处理阶段中前续处理带来的附加噪音。 等距离采样 平滑 联机藏文手写识别的特征提取 特征提取 根据经过预处理后的联机手写字符,提取出相对于位移、大小、旋转、变形等具有不变形的模式特征。 选用了网格方向信息特征提取方案,使最终提取出来的样本特征尽可能的突出表现这个样本的笔画方向信息特征。 网格方向特征 一种模板相关的特征提取方法,不针对手写字符具体的结构。 先将预处理操作后联机手写字符分成n×m的格子,再在每个方格中提取与空间位置相关的方向特征。 使联机手写的笔画上的点的方向特征与空间相关,而不是与时间相关。 联机藏文手写识别的特征提取 方向的确定 八方向还是四方向拆分? 联机藏文手写识别的特征提取 滤波器的选择 网格方向特征提取方法需要对分割后的小网格计算特征值; 特征值的取得依赖于小网格内点的分布以及一个权值空间; 权值空间的分配一般都使用某种低通滤波器来计算。 使用Gaussian滤波器来计算权值 Gaussian函数是单值函数,因为边缘是一种图像局部特征,靠近切分后小网格的边缘部分的点一般认为是噪音。 二维Gaussian函数具有旋转对称性,即滤波器在各个方向上的平滑程度是相同的。 Gaussian滤波器看以看做是Gabor滤波器的简化,它的参数较少,便于设计和实验。 联机藏文手写识别的特征提取 Gaussian滤波器 σ是尺度,它决定了滤波器的分布宽度。 优点 滤波器宽度(决定着平滑程度)是由σ决定,σ和平滑程度的关系是非常简单的。 设计 σ越大对噪声的抑制效果越好。 过大的σ会造成图像模糊、变暗,造成图像轮廓界限的消失。 r是切分后的小网格边长。 联机藏文手写识别的特征提取 图像分割的粒度 弹性网格 根据直方图投影对图像进行切分 弹性网格设计中的困难 Gaussian滤波器 切分后采样中心的确定 二值投影到灰度投影 联机手写样本中的交点信息 联机藏文手写识别的特征提取 原始特征值缺陷 特征值在0~200多不等,导致在进行聚类的距离计算时,大数占据了绝对的地位。 个别特征值的巨大差异会削弱其他特征值的影响。 改进 实验结果 根据不同字型可实验不同的方法,本文采取第二种方法,识别率提高到96.146%,比原始的特征值计方法提高了1个百分点。 聚类 聚类距离:传统的欧氏距离 分析 比较距离时,不必计算平方根,减少计算量。 曼哈顿距离、city-block距离:计算相对应的属性差值绝对值之和,即指数为1。 指数 2时:增加了大差异的影响力而削弱了小差异的影响力。 实验结果 欧氏距离:96.0646%。 不计算平方根:96.0992%

文档评论(0)

kaku + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档