4—短时时域处理技术NEW.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字语音处理 第 4 章 短时时域处理技术 学习内容 语音信号的预处理 语音信号的短时处理方法 短时时域处理技术 短时时域处理技术应用 第一节 语音信号的预处理 数据结构:将数字化的信号用循环队列的方式来存储。以便用一个有限容量的数据结构来处理数据量极大的语音数据,依次处理后抛弃。 预加重处理(Pre-emphasis):求语音信号频谱时,频率越高相应的成分越小;预加重的目的是提升高频成分,使高频的成分变得平坦,能用同样的信噪比求频谱。 预加重数字滤波器:预加重一般在数字化后、参数分析之前用预加重数字滤波器来实现,滤波器是一阶的数字滤波器:H(z)= 1 – ? z-1;? 值接近于1。filter([1-0.9375],1,x); 分帧处理 一般每秒的帧数约为33-100帧;视实际情况确定; 分帧一般采用交叠分段的方法,使帧与帧之间平滑过渡,保持其连续性。如下图所示。ENFRAME.M函数实现。 交叠部分称为帧移;帧移M与帧长N的比例取为0 - 1/2; 加窗处理 分帧是用可移动的有限长度窗口进行加权的方法来实现; 设原始语音信号为x(n),窗函数为w(n),s(n)=x(n)*w(n); 通常用得较多的是矩形窗、汉明窗; 在采样频率为10Kz的情况下,通常将窗宽选为N=100~200,相应于10~20ms; 汉明窗函数例 汉明窗:N=256;结果取值在0.08与1之间; 窗口频率特性 下图为N=51时的矩形窗、汉明窗的频率特性H(ej?) 窗口特性的比较 对语音信号短时处理而言,选用不同的窗口,时域分析参数的平均结果会不同。 汉明窗的主瓣宽度比矩形窗大一倍,旁瓣衰减大一倍多; 矩形窗的谱平滑性能较好,但丢失高频成分(波形细节); 窗口长度的选择 窗口长度的选择,需要考虑信号的基音周期。 由于人的基音周期变化很大(男女儿童老人,2ms-14ms),基音频率的变化范围50-700Hz,最高女声基音是最低男声基音的10倍,N的选择比较困难; 通常在10kHz取样频率时,N折中选择为100-200点; 经过预处理,语音信号被分成了一帧一帧的加过窗的短时信号,可看成平稳的随机信号来处理。 第二节 语音信号的短时处理方法 语音是不平稳随机过程,其特性是随着时间变化的,但这种变化很缓慢; 将语音信号分成一些相继的短段进行处理的方法,就是所谓短时处理技术。 短时时域处理技术主要是计算语音的短时能量、短时平均幅值、短时平均过零率和短时自相关函数。 短时时域处理方法的主要优点:直观、简单,处理结果能够描述语音的某些重要特性,因而在实际中获得广泛的应用。 语音短时处理原则 1)短段一般长10-20ms,称为帧;相邻短段可以有部分相重叠; 2)每个短段是从一个具有固定特性的持续语音中截取出来的,这个持续语音通常认为是由该短时语音周期性重复得到的;因此,对每个短段语音进行处理等效于对固定特性的持续语音进行处理。 3)对各个短段语音的处理即可以在时域内进行,也可以在频域内进行; 在时域内进行,通常是计算语音时间波形的能量、短时平均幅值、短时平均过零率或短时自相关函数; 在频域内进行,通常是对语音信号进行傅里叶分析,得到若干个频谱数据;为时间序列形式; 语音的时间序列表示 设原始语音信号取样序列为x(m); 1)分短段等效于乘以幅度为1的移动窗w(n-m);窗函数一般每隔一帧移动一个位置; 2)对语音信号进行短段处理,实际上是对短段进行某种变换或施以某种运算; 3)短段处理可以得到一个时间序列,用Qn表示,有 Qn=T[x(m) w(n-m)]; 其中,符号T[ ]是变换,或是运算;可以是线性、非线性的;参变的或时变的; 第三节 短时时域处理技术 短时能量:语音信号的一个短段的能量称为短时能量; 设第n段的短时能量为En En = ? [x(m) w(n-m)]2 (1) 它等于该段语音采样值的平方和,这里T[ ]是指平方和运算; 如果用h(n-m)代表[w(n-m)]2,即h(n)代表w2(n) ,数据窗的平方,则 En= ? x(m)2h(n-m) (2) 意义为:首先计算原始语音信号各个采样值的平方,然后让其通过一个冲激响应为h(n-m)的滤波器,最后输出就是短时能量构成的时间序列。两种计算方法都能得到短时能量。 短时能量计算例 语音信号在x(n)中 短时平均幅度 由于短时能量的平方运算必须选择较宽的窗,才能对采样间的平方幅度起伏有较好的平滑作用;但这样可能导致En反映不出语音能量的时变特点

文档评论(0)

shaoye348 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档