- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能信息处理 第3章 文字识别技术 3.1-3.3 张宝健 第3章 文字识别技术 3.1-3.3 3.1文字识别系统 3.2脱机文字识别 3.3联机文字识别 第3章 文字识别技术 3.1-3.3 3.1文字识别系统 主要介绍模式识别中的文字识别的原理 对分类器的具体实现做了详细剖析 列举常见的文字识别方法 对于文字识别的前景与挑战的分析 文字是人类相互交流信息的重要工具。 社会发展进入信息时代,人们已经不再停留在自己的耳朵和眼睛去直接获得这些信息,而是使用计算机将文字自动的输入计算机,用计算机对他们进行处理,随时以各种方式满足人们的不同需要。因此,研究如何用计算机自动识别文字图像,解决文字自动输入计算机,并进行高速加工处理的问题已引起大家的关注。 通俗的说,文字识别就是由计算机自动识别各种字符,如字母、数字、汉字或其他语言中的字符。文字识别有如下分类: 根据识别对象的不同,文字识别可分为西文识别、数字识别和汉字识别等。 这些字符可以是手写体和印刷体,因此文字识别又可分为手写体文字识别和印刷体文字识别。 根据采用的输入设备不同,文字识别可分为联机识别和脱机识别。 其中联机识别是指将字符书写在与计算机相连的书写板上,由计算机根据字符的书写轨迹进行实时识别,因此联机识别主要是针对手写体而言的;脱机识别是指将字符书写或打印在纸张上,用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中,再由机器进行识别。因此,脱机识别又称为光学文字识别,即我们通常所说的OCR(Optical Character Recognition)。 限制性(Constrainted)和非限制性(Unconstrained)手写体字符识别(或称自由手写体字符识别)。 无论是联机还是脱机手写体字符识别,都经历了一个由限制性识别到非限制性识别的过程。目前,人类所使用的各种文字,绝大多数都只包含很小的字符集。如英文字符集由26个字母组成,俄文由32个字母组成,这些字母及其变化的不同组合构成了具有不同含义的文字,是这类文字的基本组成部分。对于小类别数的字符集,如阿拉伯数字,手写体识别已经可以做到对书写者不加任何限制。但对于大类别数的字符集,如汉字,还必须对书写者施加某些限制,以保证较高的识别率。未来随着技术的发展,将逐步放松限制,最终可以达到最自由手写体文本的识别。 文字识别系统的原理及组成 文字识别属于模式识别的范畴,模式这个概念的内涵是很丰富的。“我们把凡是人类能用其感官直接或间接接受的外界信息都称为模式”。比如:文字、图片、景物、声音、语言等;模式识别的目的就是要研究出能自动进行模式分类和描述的机器系统,以完成人类的模式识别的功能。一个模式识别主要分为四个组成部分,其框图如下: 模式识别的过程具体化到文字识别系统中,则分为下面的几个过程 : 光电变换检测部分的主要功能,是对纸面上的文字进行光电转换,然后经模数转换成具有一定灰度的数字信号,送往其后的各部分进行处理和识别。 常用的检测设备是扫描仪,摄像头等。 灰度:灰度使用黑色调表示物体。 每个灰度对象都具有从 0%(白色)到 100%(黑色)的亮度值。 文字图像分割的目的就是根据文字图像的特征实现文字图像区域的定位和分割,将真正的文字图形分割出来,以便后续进行识别。 识别预处理部分的功能是将已分割出的文字图形信息加以区分,去除信号中的污点、空白等噪声,增强文字图像的信息。并根据一定的准则除掉一些非本质信号,对文字的大小、位置和笔画粗细等进行规范化,以便简化判断部分的复杂性。 特征提取部分是从整形和规范化的信号中抽取反映字符本身的有用信息,供识别部分进行识别。作为特征提取的内容是比较多的,可以是几何特征,如文字线条的端点、折点和交点等。 识别判断部分则是根据抽取的特征,运用一定的识别原理,对文字进行分类,确定其属性,达到识别的目的,实际上判断部分就是一个分类器。 · 这边东西有点多, 到word里边去看 脱机识别 概述 由于有些场合,不能采用书写板等专用的输入设备输入文字,或文字信息已经存在,如果要利用计算机进行文字识别,就只能进行脱机识别。 OCR概念 OCR技术是光学字符识别(Optical Character Recognition)的缩写,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。 脱机手写体字符识别系统结构 图像的输入 原始文稿通过光电扫描仪或数码相机等输入设备转换成原始的二维图像信号,可以是彩色图像、灰度图像(grayscale image)或二值图像(binary im
您可能关注的文档
- 早期国家的形成.ppt
- 旭日弘文作文教程.ppt
- 时事评论类材料作文审题立意.ppt
- 时间单位的换算课件.ppt
- 时间单位的换算.ppt
- 时间管理与工作效能.ppt
- 昆仑祥宁定期重大疾病保险.ppt
- 昆虫知识竞答.ppt
- 明代文学十二讲1.ppt
- 明喻和暗喻的比较SimileMetaphor.ppt
- TFSCPLC-印染企业突发环境事故风险评估指南及编制说明.pdf
- DB36T-挥发性有机物污染防治技术指南 第1部分:表面涂装行业(试行)及编制说明.pdf
- TACEF-表面活性剂中31种全氟和多氟烷基化合物(PFAS)和总可氧化前驱体(TOP)的测定 液相色谱-三重四极杆质谱法及编制说明.pdf
- 2020年内蒙古自治区聚乙烯(PE)管材产品质量监督抽查方案.pdf
- TCIIPA0004-2024 关键信息基础设施安全防护能力要求与评价及编制说明.pdf
- TCTBA-发电企业电线电缆采购技术规范 第2部分:塑料绝缘控制电缆及编制说明.pdf
- TCBFIA-培养基用麦角甾醇及编制说明.pdf
- TCTBA-发电企业电线电缆采购技术规范 第4部分:中压电力电缆及编制说明.pdf
- 2024年生丝产品质量广西监督抽查实施细则.pdf
- 民用飞机后舱机载宽带网络接入系统网络安全及可靠性技术要求及编制说明.pdf
文档评论(0)