- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五讲汉字识别技术
第五讲 汉字识别技术 提纲 背景介绍:分类与发展历史 印刷体汉字识别 联机手写汉字识别 脱机手写汉字识别 汉字输入方式 人工方式 键盘输入 手写输入 语音识别技术 自动输入 印刷体汉字识别 脱机手写汉字识别 汉字/字符识别分类 按照识别对象的特征分类 印刷体字符识别 手写体字符识别 手写体字符识别 脱机字符识别(off-line) 机器用扫描方式识别已经写好的文本 联机字符识别(on-line) 用笔在输入板上写,边写边认 汉字/字符识别分类 技术难度比较 印刷体识别 最容易 已经有了大量实际应用,图书馆数字化 联机手写体识别 相对容易,PDA等的推广,大量应用 脱机手写体识别——最难 脱机手写体数字的识别已有实际应用外,比如邮政编码的自动识别 汉字等文字的脱机手写体识别还处在实验室阶段 信号采集方式 脱机识别 扫描仪或者摄像设备 数字图像信号 联机手写识别 手写屏,手写输入板 运动轨迹电信号,记录了笔划和笔顺信息 电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的信息 印刷体汉字识别(OCR)技术 背景简介 一般流程 常用方法 未来展望 汉字OCR技术发展历史 西文OCR技术研究始于50年代 Optical Character Recognition (OCR) 几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的 30 多年来,字符识别一直是模式识别的重要内容之一 汉字OCR技术 印刷体汉字的识别最早可以追溯到60年代 1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字 汉字OCR技术发展历史 70年代以来,日本人做了许多工作 日本的常用汉字有2000个左右 1977年东芝综合研究所研制了可以识别2000个汉字的单体印刷汉字识别系统 80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平 日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统 简评 这些系统在方法上,大都采用基于KL数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用 汉字OCR技术发展历史 我国自70年代后期开始字符识别方面的研究 80年代以后,台湾和香港发展的也很快 发展历程 70年代末期到80年代末期 算法和方案探索 :单体汉字识别 90年代初期 由实验室走向市场,初步实用 90年代后期——混排 多语言混排文本:如中英文 多字体混排文本:如:宋,楷体,…) 多字号混排文本:不同大小 当前进展状态 2000年代后 识别率、鲁棒性的提高 单纯OCR?文档分析 多语混排,多字号,多字体 版面分析 文本的结构 表格,图像(如插图),公式 摄像设备(非扫描仪) 名片?手机摄像?通讯录 国内主要研究机构/人物 汉王科技 中科院自动化所(刘迎建) 1985年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利。1993年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出任总经理 中科院计算所智能计算机研究中心(刘昌平) 男,1965年 2月出生,博士,1999年之前在中科院计算所智能计算机研究中心工作,从事OCR研究。1999年加盟自动化所,现任自动化所研究员、博士生导师,北京汉王科技公司研究中心主任 其他 清华大学电子系图像所 丁晓青教授 北京信息工程学院 沈阳自动化研究所 OCR技术一般流程简介 OCR技术一般流程 流程简介 1、图像获取 将文本转换为图象点阵 扫描仪 (Scanner) 其它光电扫描设备 如传真机,摄象机 不同获取设备的差异 扫描仪:最优 摄像机:识别难度大 流程简介 2、图像预处理 滤除干扰噪声 倾斜校正 各种滤波处理 3、版面分析 完成对于文本图象的总体分析 区分出文本段落及排版顺序,图象、表格的区域 对于文本区域将进行识别处理 对于表格区域进行专用的表格分析及识别处理 对于图象区域进行压缩或简单存储。 流程简介 4、行字切分 将大幅的图象先切割为行 从图象行中分离出单个字符 5、特征提取——模式表示问题 整个环节中最重要的一环,提取的特征的稳定性及有效性,直接决定了识别的性能 从单个字符图象上提取统计特征或结构特征 包括细化(Thinning),归一化(大小等)等步骤 流程简介 6、文字识别 模式识别研究范畴 从学习得到的特征库中找到与待识字符相似度最高的字符类 7、后处理 利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程 汉字识别方法简介 汉字识别方法分类 句法/
您可能关注的文档
最近下载
- 全国川教版信息技术八年级上册第三单元第3节《常见的策略》教学设计.docx VIP
- 城市轨道交通概论:城市轨道交通车站PPT教学课件.pptx VIP
- JB81-1994法兰(详细规格尺寸表).pdf VIP
- 读后续写(第一次独自骑自行车)讲义-2023届高三英语写作专项.docx
- 二氧化碳致裂器安全技术要求.pptx
- (高清版)DB4401∕T 109-2021 《历史保护建筑防火技术规程》.pdf VIP
- 【新版】苏教版五年级上册科学06.热对流 教学设计含反思.doc VIP
- 小学数学北师大版六年级上册《百分数的认识》教学设计.pdf VIP
- TZS 0678—2025《生物安全实验室工作人员本底血清样本管理规范》(水印版).pdf VIP
- YY_T 1892-2024 断裂点簇集区-艾贝尔逊白血病病毒(BCR-ABL)融合基因检测试剂盒.pdf VIP
文档评论(0)