第五讲汉字识别技术.pptVIP

下载本文档

4
0
约4.72千字
约 47页
2018-01-15 发布于江西
举报
版权申诉

第五讲汉字识别技术.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五讲汉字识别技术

第五讲汉字识别技术提纲背景介绍：分类与发展历史印刷体汉字识别联机手写汉字识别脱机手写汉字识别汉字输入方式人工方式键盘输入手写输入语音识别技术自动输入印刷体汉字识别脱机手写汉字识别汉字/字符识别分类按照识别对象的特征分类印刷体字符识别手写体字符识别手写体字符识别脱机字符识别（off-line）机器用扫描方式识别已经写好的文本联机字符识别（on-line）用笔在输入板上写，边写边认汉字/字符识别分类技术难度比较印刷体识别最容易已经有了大量实际应用，图书馆数字化联机手写体识别相对容易，PDA等的推广，大量应用脱机手写体识别——最难脱机手写体数字的识别已有实际应用外，比如邮政编码的自动识别汉字等文字的脱机手写体识别还处在实验室阶段信号采集方式脱机识别扫描仪或者摄像设备数字图像信号联机手写识别手写屏，手写输入板运动轨迹电信号，记录了笔划和笔顺信息电磁式或压电式，在书写时，笔在板上的运动轨迹（在板上的坐标）被转化为一系列的电信号，电信号可以串行地进入到计算机中，从这些电信号我们可以比较容易地抽取笔划和笔顺的信息印刷体汉字识别(OCR)技术背景简介一般流程常用方法未来展望汉字OCR技术发展历史西文OCR技术研究始于50年代 Optical Character Recognition (OCR) 几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的 30 多年来，字符识别一直是模式识别的重要内容之一汉字OCR技术印刷体汉字的识别最早可以追溯到60年代 1966年，IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1，000个印刷体汉字汉字OCR技术发展历史 70年代以来，日本人做了许多工作日本的常用汉字有2000个左右 1977年东芝综合研究所研制了可以识别2000个汉字的单体印刷汉字识别系统 80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统简评这些系统在方法上，大都采用基于KL数字变换的匹配方案，使用了大量专用硬件，其设备有的相当于小型机甚至大型机，价格极其昂贵，没有得到广泛应用汉字OCR技术发展历史我国自70年代后期开始字符识别方面的研究 80年代以后,台湾和香港发展的也很快发展历程 70年代末期到80年代末期算法和方案探索：单体汉字识别 90年代初期由实验室走向市场，初步实用 90年代后期——混排多语言混排文本：如中英文多字体混排文本：如：宋，楷体，…）多字号混排文本：不同大小当前进展状态 2000年代后识别率、鲁棒性的提高单纯OCR?文档分析多语混排，多字号，多字体版面分析文本的结构表格，图像（如插图），公式摄像设备（非扫描仪）名片?手机摄像?通讯录国内主要研究机构/人物汉王科技中科院自动化所（刘迎建） 1985年刘迎建开发出国内第一个联机手写汉字识别系统，并获国家发明专利。1993年初，在中科院自动化研究所的支持下创办了中国汉王科技公司，出任总经理中科院计算所智能计算机研究中心（刘昌平）男，1965年 2月出生，博士，1999年之前在中科院计算所智能计算机研究中心工作，从事OCR研究。1999年加盟自动化所，现任自动化所研究员、博士生导师，北京汉王科技公司研究中心主任其他清华大学电子系图像所丁晓青教授北京信息工程学院沈阳自动化研究所 OCR技术一般流程简介 OCR技术一般流程流程简介 1、图像获取将文本转换为图象点阵扫描仪 (Scanner) 其它光电扫描设备如传真机，摄象机不同获取设备的差异扫描仪：最优摄像机：识别难度大流程简介 2、图像预处理滤除干扰噪声倾斜校正各种滤波处理 3、版面分析完成对于文本图象的总体分析区分出文本段落及排版顺序，图象、表格的区域对于文本区域将进行识别处理对于表格区域进行专用的表格分析及识别处理对于图象区域进行压缩或简单存储。流程简介 4、行字切分将大幅的图象先切割为行从图象行中分离出单个字符 5、特征提取——模式表示问题整个环节中最重要的一环，提取的特征的稳定性及有效性，直接决定了识别的性能从单个字符图象上提取统计特征或结构特征包括细化(Thinning)，归一化(大小等)等步骤流程简介 6、文字识别模式识别研究范畴从学习得到的特征库中找到与待识字符相似度最高的字符类 7、后处理利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程汉字识别方法简介汉字识别方法分类句法/