- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 模式识别的应用 汉字识别 文字识别问题 汉字识别系统 汉字的结构特性分析 印刷体汉字的特征描述 汉字识别方法分类 1、文字识别问题 1)汉字识别 2)汉字OCR技术发展历史 3)国内主要研究机构 1)汉字识别 汉字识别属于文字识别(OCR)的范畴,文字识别是模式识别的重要应用领域。汉字识别技术涉及到模式识别、图像处理、人工智能、模糊数学、组合论、信息论、计算机等多个学科,也涉及到语言文字学、心理学等学科,是一门综合性的技术。 汉字识别难度 印刷体识别 最容易 已经有了大量实际应用,图书馆数字化 2)汉字OCR技术发展历史 西文OCR技术研究始于50年代 Optical Character Recognition (OCR) 几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的 30 多年来,字符识别一直是模式识别的重要内容之一 2)汉字OCR技术发展历史 70年代以来,日本人做了许多工作 日本的常用汉字有2000个左右 1977年东芝综合研究所研制了可以识别2000个汉字的单体印刷汉字识别系统 80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平 日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统 简评 这些系统在方法上,大都采用基于KL数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用 2)汉字OCR技术发展历史 我国自70年代后期开始字符识别方面的研究,80年代以后,台湾和香港发展的也很快 70年代末期到80年代末期 算法和方案探索 :单体汉字识别 90年代初期 由实验室走向市场,初步实用 90年代后期——混排 多语言混排文本:如中英文 多字体混排文本:如:宋,楷体,…) 多字号混排文本:不同大小 当前进展状态 2000年代后 识别率、鲁棒性的提高 单纯OCR?文档分析 多语混排,多字号,多字体 版面分析 文本的结构 表格,图像(如插图),公式 摄像设备(非扫描仪) 名片?手机摄像?通讯录 3)国内主要研究机构 汉王科技 中科院自动化所 1985年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利。1993年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出任总经理 中科院计算所智能计算机研究中心 国内主要研究机构/人物 其他 清华大学电子系图像所 丁晓青教授 北京信息工程学院 沈阳自动化研究所 2、汉字识别系统 1)系统构成 2)OCR技术流程 3)预处理-归一化 1)系统构成 信号采集方式 脱机识别 扫描仪或者摄像设备 数字图像信号 联机手写识别 手写屏,手写输入板 运动轨迹电信号,记录了笔划和笔顺信息 电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的信息. 2)OCR技术一般流程 流程简介 1)图像获取 将文本转换为图象点阵 扫描仪 (Scanner) 其它光电扫描设备 如传真机,摄象机 不同获取设备的差异 扫描仪:最优 摄像机:识别难度大 流程简介 2)图像预处理 滤除干扰噪声 倾斜校正 各种滤波处理 3)版面分析 完成对于文本图象的总体分析 区分出文本段落及排版顺序,图象、表格的区域 对于文本区域将进行识别处理 对于表格区域进行专用的表格分析及识别处理 对于图象区域进行压缩或简单存储。 流程简介 4)行字切分 将大幅的图象先切割为行 从图象行中分离出单个字符 5)特征提取——模式表示问题 整个环节中最重要的一环,提取的特征的稳定性及有效性,直接决定了识别的性能 从单个字符图象上提取统计特征或结构特征 包括细化(Thinning),归一化(大小等)等步骤 流程简介 6)文字识别 模式识别研究范畴 从学习得到的特征库中找到与待识字符相似度最高的字符类 7)后处理 利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程 3) 归一化 为了消除汉字点阵位置上的偏差,需要把整个汉字点阵图形移动到规定的位置上,这个过程被称做位置归一化。 3)归一化 下面计算水平和垂直方向的散度σI 和 σJ : 3、汉字的结构特性分析 周边特征分析 游程统计特征及分析 笔划特征及分析 字根统计特征及分析 汉字的图像点阵 周边特征分析 周边特征分析 游程统计特性及分析 笔划特性及分析 字根统计特性及分析 4、印刷体汉字的特征描述 1)复杂指数 2)四边码 3)粗外围特征 4)粗网格特征 5)笔划密度特征 6)汉字特征点 1) 复杂指数 文字x方向和y方向的复杂指数被定义为: 2) 四边码 从文字四周边框开始,向
您可能关注的文档
最近下载
- 22G101 三维彩色立体图集.docx VIP
- DB41T2454-2023 测量仪器检定校准证书有效性确认技术规范 (2).pdf VIP
- 全过程工程咨询流程.pptx VIP
- (完整版)初中物理新课标解读.pptx VIP
- 火电厂湿法脱硫脱硝石膏中氯离子的去除工艺、药品方法.pdf VIP
- 《党政主要领导干部和国有企业领导s人员经济责任审计规定》释义.doc VIP
- 2025年全国普通高校招生全国统一考试数学真题(新高考Ⅰ卷)(含答案).pdf
- T_JAASS 164-2025 零碳农业园区创建与评价技术规范.docx VIP
- 品牌代理合同范本.docx VIP
- 标准与标准化知识.ppt VIP
文档评论(0)