语音识别综述.pptVIP

下载本文档

1
0
约3.45千字
约 25页
2025-09-16 发布于广东
举报
版权申诉

语音识别综述.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

上页下页节末页结束DataStructure语音识别综述第1页，共25页，星期日，2025年，2月5日语音识别的分类一、从识别单位分为以下几类1.孤立词语音识别。识别的单词间有停顿。2.连接词语音识别。在连续语音中识别出其包含的几个或某几个词。3.连续语音识别。识别的单词之间没有停顿。4.语音理解。在语音识别的基础上，用语言学知识推断出语音的含义。二、从识别的词汇量可以分为小词汇（10~50个）、中词汇（50~200个）、大词汇（200个以上）等三类。三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。不仅仅这三种分类方法，我们还可以从识别方法、识别环境、说话人类型等方面进行分类。第2页，共25页，星期日，2025年，2月5日语音识别技术的发展方向一、大词汇量连续语音识别系统，主要应用于计算机的听写，以及与电话网或者互联网相结合的语音信息查询服务系统，这些系统都是在计算机平台上实现的。二、小型化、便携式语音产品的应用，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用，这些应用系统大都是使用专门的硬件系统实现。语音识别与语言学和人工智能有密切联系。语音识别的重大进展可能并不是来自分析、自适应模式匹配及计算机运算等方面的进一步研究，而是来自语言感知、语言产生、语音学、语言学及心理学的研究。第3页，共25页，星期日，2025年，2月5日语音识别的原理第4页，共25页，星期日，2025年，2月5日预处理待识别的语音经过话筒变成电信号后加在识别系统的输入端，首先要经过预处理。预处理包括反混叠失真滤波、预加重和端点检测。经过预处理后，按照一定的特征提取方法产生语音特征参数，这些特征参数的时间序列便构成了待识别语音模式，将其与已经存储在的参考模式逐一进行比较（模式匹配），最佳（由判决规则确定）的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的，为此，要输入一系列已知语音信号，提取它们的特征作为参考模式，这一过程称为训练。语音识别所遇的难题是有哪些信誉好的足球投注网站最佳识别结果和参数训练。目前，语音识别所应用的模式匹配和模型训练技术主要有动态时间规整技术（DTW）、隐马尔科夫模型（HMM）和人工神经网络。第5页，共25页，星期日，2025年，2月5日特征提取特征提取就是对语音信号进行分析处理，去除语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。特征提取一般要解决两个问题，一个是从语音信号中提取有代表性的合适的特征参数，另一个是进行适当的数据压缩。目前，语音识别技术中应用最流行的特征参数是基于人的声道模型和听觉机理的LPCC，LPCMCC，MFCC和ZCPA。语音特征的参数是分帧提取的，每帧特征参数一般构成一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板，显然，特征的选取对识别效果至关重要，选择的标准应尽量满足一下两个要求：（1）能有效的代表语音特征，包括声道特征和听觉特征，具有很好的区分性。（2）特征参数要计算方便，在保持高识别率的情况下。最好有高效的计算方法。第6页，共25页，星期日，2025年，2月5日特征提取的方法一、线性预测系数（LPC）二、LPC倒谱系数（LPCC）三、Mel频率倒谱系数（MFCC）四、LPC梅尔倒谱系数（LPCC）五、zcpa特征第7页，共25页，星期日，2025年，2月5日LPC倒谱依据语音信号产生的生理和数学模型可知，语音信号是音源激励分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语音信号的倒谱分析可有效地分离激励成分与声道成分。计算语音信号的倒谱通常有两种方法：其一是先对语音信号进行短时付里叶变换，取其模的对数值，再进行反变换，得其倒谱。声道信息可通过低时窗取出。其二是依据AR模型对LPC参数进行递推，形成LPC倒谱，LPC倒谱（LPCC）由于利用了线性预测中声道系统函数的最小相位特性，避免了复杂的相位卷积和复对数计算；且LPC倒谱的运算量仅是用FFT求倒谱时运算量的一半，适于实时应用，它的递推式如下:第8页，共25页，星期日，2025年，2月5日式中a1…ap为p阶LPC的特征向量。第9页，共25页，星期日，2025年，2月5日识别方法介绍一般来说，语音识别的方法有四种：（1）基于声道模型和语音知识的方法（2）模式匹配方法（3）统计型模型方法（4）人工神经网络方法第10页，共25页，星期日，2025年，2月5日基于声道模型和语音知识的方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模