《PyTorch与深度学习实战》第4章手写汉字识别.pptxVIP

下载本文档

72
0
约3.15千字
约 26页
2023-11-18 发布于广东
举报
版权申诉

《PyTorch与深度学习实战》第4章手写汉字识别.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

手写汉字识别;;汉族、汉字、汉语，与汉朝有着非常密切的关系，中国的主体民族汉朝时基本融合完成。后世的人们称逐渐融合了其他民族的以华夏民族为主体的民族为汉族，后来，其使用的语言和文字也被称为汉语、汉字。为满足资源共享、信息传播的需要，大量的中文信息都需要在计算机上进行处理。因此，解决汉字录入的困难成为了至关重要的问题，而汉字识别的研发，为高速输入汉字的需求提供了支持。本章将介绍如何利用卷积神经网络实现手写汉字识别。本小节主要介绍手写汉字识别的相关背景和本案例的分析目标与相关流程。 ;1966年，国外的学者发表了第一篇关于汉字识别的论文，于是在全球范围内，掀起了一股印刷体汉字识别的浪潮。在1980年以前，汉字识别主要停留在探索和研制阶段，可以在理想情况下实现文字识别，但适应性和抗干扰性比较差，难以推广使用。 1986年以来，随着文字识别技术的不断发展，以清华大学电子工程系、中国科学院计算所智能中心为代表的多家单位基于传统的汉字识别方法，分别研制并开发出了实用化的汉字识别系统。手写汉字的识别广泛地应用于文件资料自动录入、机器翻译、图像文本的压缩储存等方面。汉字识别不但在实际应用方面十分常见，在理论研究方面也有重大意义。 ;汉字的数量较大、形式较多，属于大类别的模式识别问题，同时汉字识别还涉及到图像处理、人工智能等领域。不同于印刷体的汉字识别，手写的汉字由于不同的写字风格，使得同一个字的写出来的结果千差万别。因此，研究一个可以识别多种风格（正楷、草书、隶书等）的手写汉字的系统具有重要意义。由数据采集方式不同，手写体汉字识别可以划分为脱机手写体汉字识别和联机手写体汉字识别两大类。联机手写汉字识别所处理的手写文字是书写者通过物理设备，如数字笔、数字手写板或触摸屏在线书写获取的文字信号，书写的轨迹通过定时采样即时输入到计算机中。脱机手写文字识别所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字二维图片。;因此，脱机和联手写识别技术所采用的方法和策略不???相同。前者的识别对象是一系列按时间先后排列的采样点信息，而后者则是丢失了书写笔顺信息的二维像素信息。由于没有笔顺信息，加之拍照扫描设备在不同光照、分辨率和书写纸张等条件下，数字化会带来一定的噪声干扰，所以一般来说，脱机手写文字识别比联机手写文字识别更加困难。手写汉字识别是一个极具挑战性的模式识别及机器学习问题，主要困难如下。书写方式随意，不正规，无法达到印刷体要求。汉字字符级别比较繁杂，极具变化特点。诸多汉字在外形上相似，容易混淆。要求具备庞大的训练数据，但采集困难，特别是随意性、无约束性手写，对应数据库的构建显得力不从心。 ;可见，手写汉字识别仍有较大的进步空间。一般而言，传统的手写中文单字识别系统主要包括数据预处理、特征提取和分类识别三部分。然而，近些年来，传统的手写汉字识别框架进展并不明显，几乎原地踏步。而深度学习的发展给手写汉字识别带来了不可错失的机遇。实践证明，在深度学习技术协助下，联机手写汉字识别、脱机手写汉字识别的识别率都得到了足步的提升。 ;本案例利用手写汉字数据集和卷积神经网络，实现手写汉字识别，如图所示。;主要包括以下6个步骤。加载数据，包括生成图像集路径txt文档，读取并变换图像数据格式。构建网络，即构建卷积神经网络LeNet-5。编译网络，即设置优化器和损失函数。训练网络，即设置迭代次数大小并开始训练网络。性能评估，评估指标为测试集准确率。模型预测，加载保存好的模型并输入图像进行预测。 ;本案例基于PyTorch 1.8.1、CUDA 10.2和cuDNN 8.2.0环境下运行，其中PyTorch 1.8.1亦可以是CPU版本。数据集来源于中科院自动化研究所制作的手写汉字数据集，该数据集包含3754个不同的汉字，共650多万张汉字图像。本案例选取其中的100个汉字作为数据集。项目目录包含三个文件夹，分别是code、data和tmp，如下图左一。所有原始数据，存放在data文件夹，如下图右一所示。 ;训练集train、测试集test文件夹中的图片存放形式如图示。 ;查看文件夹00000，如下图所示。所有的代码文件存放于code文件夹，如下图所示。 ;输出文件存放于tmp文件夹，如模型的权重，如下图。;;图像文件存放在train和test文件夹下的100个不同编号的文件夹中，在开始构建网络前需要读取这100个文件夹中的手写汉字图像。 ;因为每个汉字的图像集都存放在对应的数字编号文件夹中，所以读取路径总共有100条。通过手动输入每个文件的路径需要极大的工作量，因此可以创建每个汉字的图像路径txt文件，并通过遍历txt中保存的路径读取图像。 ;定义读取并变换数据格式的类，运行该类会打开c