第2章-语音信号的数字模型PPT.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章-语音信号的数字模型PPT

第二章 语音信号的数字模型 ; ;2.1 语音的发声机理 ; 本章重点介绍语音信号产生的数字模型,对语音信号的特性和听觉特性做一般介绍。 ;;“十二五”普通高等教育本科国家级规划教材; 口腔包括:上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。 上腭又分为:硬腭和软腭两部分; 舌又分为:舌尖、舌面和舌根三部分。;图2.3 声道纵剖面图;右图为语音生成其机理模型。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。;;2.1.2 语音生成; 基音频率是由声带张开闭合的周期所决定的: ;“十二五”普通高等教育本科国家级规划教材;2、清音; 共振峰频率或共振峰;2.2 语音的听觉机理;2.2.1 听觉器官 人的听觉器官包括:外耳、中耳和内耳; 1.外耳 外耳由耳廓(耳翼)、外耳道和耳鼓(鼓膜)组成。 2.中耳 组成:包括三块听小骨:锤骨,砧骨和镫骨。 作用:阻抗匹配和限幅 外耳和中耳的综合作用相当于一个介于500Hz到6kHz之间的平滑的带通滤波器,可以用有限冲激响应(FIR---Finite Impulse Response)滤波器来模拟。 ; 3. 内耳 内耳是一个充满液体的骨质结构,由前庭、圆形窗、卵形窗及耳蜗组成。;人耳听觉界限的频率范围大约为20Hz-20kHz。;掩蔽效应; ;2.2.4 耳蜗的信号处理机制 ; ;图2.7 基底膜上六个不同点的频率响应;2.2.5 语音信号听觉模型;“十二五”普通高等教育本科国家级规划教材;“十二五”普通高等教育本科国家级规划教材;2.3 语音信号的 线性模型;有三部分作用施加在语音的声波上: ;2.3.1 激励模型; ; 单个斜三角波的频谱G(ejω)表现出一个低通滤波器的特性。其z变换的全极点形式为:; 浊音激励模型可表示为 清音可以模拟成随机白噪声。; 典型的声道模型有两种:无损声管模型和共振峰模型。无损声管模型比较复杂,故本节只介绍共振峰模型。 共振峰模型: 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰。;; 实践表明,用前三个共振峰代表一个元音足够了。多个Vi叠加可以得到声道的共振峰模型: ;图2.11 “我到北京去”的语谱图; 从声道模型输出的是速度波ul (n),而语音信号是声压波Pl(n)。二者倒比称为辐射阻抗Zl,它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗,r近似为1 ; 语音信号数字模型的传递函数为:; 根据随机过程理论,一个零点可以用若干极点来近似。因此,适当选取极点个数p,可以用全极点模型即AR(p)过程来表达语音信号:;“十二五”普通高等教育本科国家级规划教材;“十二五”普通高等教育本科国家级规划教材;2.4 语音信号的非 线性模型; 语音信号的产生是一个非线性过程,其中存在着混沌的机制,发浊音、清音以及声音传播过程中都表现出了非线性混沌现象。20世纪80年代,Teager等人研究发现语音的产生是涡流与平面波共同形成的,是非线性的。 基于上述的种种表现,仅仅使用线性模型来描述语音信号显然已经不再合适,因此本节将详细介绍语音信号的几种非线性模型。; 早期的语音信号处理方法大多是基于语音信号具有短时平稳性理论,当语音信号分帧处理足够小时,语音信号可以当作近似线性信号来处理。 通常,基于确定性线性系统理论的短时处理技术分为时域和频域两种。虽然这些分析方法得到了广泛地应用,但是同时也存在着很大的局限性。;1)调频-调幅模型 调频-调幅模型的依据是语音由声道共振产生的理论。用能量分离算法将每个共振峰相对应的瞬时频率从语音信号中分离出来,并利用这个瞬时频率,就可以得到描述语音信号特性的特征。;在调频-调幅模型中,对于一个载波频率为 ,频率调制信号为 ,由 来控制幅值的调制信号可以表示为:;将瞬时频率定义为瞬时相位的变化率,即 ,可以将语音信号看作是由若干个共振峰调制信号叠加而成,可以表示为:;2)Teager能量算子 Teager能量算子在连续域和离散域中有两种形式。对于有限连续信号 , ,Teager能量算子可以表示为:;设宽带稳态

文档评论(0)

djdjix + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档