言语科学基础第三章 语音的变换域分析.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.2 语音的线性预测分析 求解出 的值,再回代到极点方程中,求解出z的值,就能够求解出z的一系列解。 由于z是频率值,可以进一步转化为以Hz为单位的频率值,即求得一系列共振峰频率值。 3.2 语音的线性预测分析 共振峰曲线 作业 1、什么是线性预测? 2、功率谱与短时自相关函数有何关系? Thank you! 言语科学基础 二零一三年 六月 司博宇 华东师范大学言语听觉科学专业 第三章 语音的变换域分析 学习目标 语音的频域分析:傅里叶变换、功率谱 语音的线性预测分析:共振峰提取 3.1 语音的频域分析 语音的频域分析,就是分析语音的频率特征。 广义上来说,语音的频域分析类型包含频谱、功率谱、倒频谱分析等。 分析语音频谱的重要手段之一就是傅里叶变换。 3.1 语音的频域分析 定义:对第n帧语音 进行傅里叶变换,就有 其中,N为窗长,m是每一帧的采样点的序号,ω是角频率变量。 3.1 语音的频域分析 需要注意的是,对语音进行时域、频域以及其他变换域分析的时候,都是针对短时语音(分帧)的情况。 因此,这里的傅里叶变换,还有后面的功率谱等等概念都是短时的,在本章中为记忆方便,省去“短时”二字。 3.1 语音的频域分析 实际应用中,功率谱能够更好的反映语音的频率特性。 功率谱与短时傅里叶变化之间的关系为: *代表复共轭运算(定义:两个实部相等,虚部互为相反数的复数互为共轭复数;) 3.1 语音的频域分析 复共轭计算的代数特性: 若 ,则它的复共轭是 绝对值: 如图所示 3.1 语音的频域分析 乘法: 经过推导,功率谱 是短时自相关函数 的傅里叶变换: 3.1 语音的频域分析 言语测量软件中,计算出来功率谱是用快速傅里叶变换(FFT)得到的,该算法对常规的傅里叶变换进行了改进,得到的结果基本一致。 功率谱是显示信号能量的分布随频率变化的一种曲线图。 3.1 语音的频域分析 功率谱 3.1 语音的频域分析 功率谱建立在FFT分析上,因此,在实际使用中,需要掌握关于FFT的相关参数: FFT阶数:代表了所要分析的频带,值越高,频带越窄; 窗函数类型:矩形窗、汉明窗、汉宁窗。这里窗函数的类型决定了分析结果的加权程度。加权就是使波形振幅逐渐增加或减少。 3.2 语音的线性预测分析 线性预测的定义: 由于语音采样点之间存在相关性,所以可以用过去的采样点值来预测现在或者未来的采样点值,即一个语音的采样点能够用过去若干个语音采样点或它们的线性组合来逼近。通过使实际语音采样和线性预测采样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数,这组系数能够反映语音信号的特性。 3.2 语音的线性预测分析 将线性预测应用于语音分析,不仅是因为它的预测功能,更重要的是因为它能提供一个非常好的声道模型及模型参数估计方法。 3.2 语音的线性预测分析 线性预测的基本思想是:用过去p个采样点值来预测现在或未来的采样点值: 预测误差ε(n)为: 这样就可以通过在某个准则下使预测误差ε(n)达到最小值的方法来决定唯一的一组线性预测系数ai(i = 1,2,3,…,p) 3.2 语音的线性预测分析 利用线性预测分析可以对功率谱进行平滑处理,得到线性预测谱。 实时线性预测谱揭示了输入语音的共振峰频率和带宽。从线性预测谱上,可以清楚的看到共振峰。 利用线性预测谱可以容易的评估被试的发音情况,例如,低元音还是高元音,前元音还是后元音等。 3.2 语音的线性预测分析 利用线性预测分析来进行共振峰提取 共振峰的信息包含在语音频谱包络中,因此,共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。 3.2 语音的线性预测分析 精确估计共振峰是存在困难的: 虚假峰值。采用线性预测方法时,出现虚假峰值的情况较少。 共振峰合并。相邻共振峰的频率可能会靠的太近难以分辨,而寻找一种理想的能对共振峰合并进行识别的算法有不少实际困难。 高音调语音。高音调语音中,线性预测包络峰值趋向于离开真实位置而朝着最接近的谐波峰值移动。 3.2 语音的线性预测分析 实施方法(线性预测器) 根据语音产生的数学模型,线性预测器可视为声门激励模型E、声道系统模型V、辐射模型S的组合。三者在频域上的关系是: 3.2 语音的线性预测分析 令 ,利用一个已知的参数模型去估计声道系统模型可得到: 其中p是线性预测阶数,一般取10;G是一个非负实数,控制幅度大小。 3.2 语音的线性预测分析 将V(z)称为声道系统的响应函数。前面提到共振峰曲线上的尖峰值称之为“极点”,极点的物理意义其实是使声道系统响应函数取得极大值的点,即 这样就转化为求解系数组合 的问题了

文档评论(0)

autohhh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档