倒谱在语音信号处理方面的应用.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
倒谱在语音信号处理方面的应用

倒谱在语音信号处理方面的应用摘要:本文首先对基音做了大概的介绍,简要说明了语音的形成机制,并针对语音信号处理做了详细的分析,包括信号采样量化、加窗处理以及语音数字信号的时域和频域特征分析。本文针对如何用倒谱法实现基音检测的原理进行了详细的理论推导和分析,在最后,通过使用cooledit软件对语音信号做简单的预处理,并用matlab软件编写程序实现了基于倒谱法的基音检测。关键词:基音检测倒谱分析matlab0前言基音是指发浊音时声带振动所引起的周期性,而声带振动频率的倒数就是基音周期。基音周期具有时变性和准周期性,它的大小与个人声带的长短、厚薄、韧性和发音习惯有关,还与发音者的性别、年龄、发音时的力度及情感有关,是语音信号处理中的重要参数之一,它描述了语音激励源的一个重要特征。基音周期的估计称为基音检测(Pitch Detection),基音检测的最终目标是找出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则找出尽量相吻合的轨迹曲线。迄今为止,已经发展了几种常用的基音检测技术,如自相关函数检测法、平均幅度差函数法、倒谱法、小波法等,本文专门从倒谱法出发,研究倒谱法在基音检测方面的应用。倒谱法(cepstrum)是一种频域上的检测算法,这种方法检测基因周期精确度很高,主要通过傅里叶变换和对数变换来实现。本文从四个方面来讨论基音检测的问题:简要介绍语音的发音机理、语音信号的数字处理等。分别从时域和频域两方面分析了语音信号的特征从理论上研究分析倒谱法在MATLAB软件基础上利用倒谱法对一段语音信号进行基音检测。1语音信号处理基础语音信号的产生人体发音器官由三部分组成:肺和气管、喉、声道。在说话时,空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。喉部有重要的发音器官声带(vocalcords),两片声带之间的空间叫做声门。声带每次开启和闭合一次的时间就是基因周期(pitchperiod),它的倒数就是基音频率。基音频率最低可达到80Hz左右,最高可达500Hz左右,其范围随着发音人的性别、年龄及其具体情况而定。语音信号的数字化语音信号是在时间和幅度上都连续的一维模拟信号,想要在计算机或处理器上对它进行处理,就要先进行采样和量化,将它变成时间和幅度都离散的数字信号。采样就是把模拟信号在时间域上进行等间隔取样,取样周期的倒数就是采样频率。根据奈奎斯特采样定理,当采样频率大于信号频率的两倍时,采样后的信号能够重构原始信号。人发音频率主要集中在300Hz~3.4KHz之间,在实际的语音信号处理中,采样频率一般为8KHz~10KHz。采样后得到的幅值需要经过量化,才能被计算机处理。量化就是将整个信号的幅度分为若干个有限的区间,并且把落入同一个区间的样本点都用同一个值表示。语音信号的短时加窗处理对语音信号进行分析的一个前提是语音信号短时平稳(10ms~30ms),为了得到短时的语音信号,需要对语音信号进行加窗操作。常用的窗口有矩形窗和汉明窗。窗口的形状和长度的不同选择都会影响到语音信号的分析结果。如下图为矩形窗和汉明窗的时域、频域特性对比:图1矩形窗和汉明窗的时域、频域特性对比矩形窗:汉明窗(hamming):虽然这两种窗都有低通特性,但是不同的窗函数形状将影响分帧后短时特征的特性。由上图可知,矩形窗的旁瓣太高,会产生严重的泄漏现象,因此只在某些特殊场合中采用。汉明窗旁瓣较低,可以有效地克服泄漏现象,具有更平滑的低通特性,因此应用最为广泛。前面的窗函数长度是相对于语音信号的基音周期而言的。通常认为一个语音帧内,应含有1~7个基音周期,然而不同人的基音周期变化范围很大,基音周期持续时间会从高音调的女性或儿童的约20个采样点(采样频率为10kHz)变化到很低音调的男性的250个采样点,这意味着在进行分析时可能需要多个不同的N值,所以N的选择比较困难。通常在采样频率为10kHz的情况下,N的选择在100~200量级是合适的(也就是说10ms~20ms持续时间)。语音信号的特征分析语音信号的时域表示对信号分析最直接的方法是以时间为自变量进行分析。在进行语音信号数字处理时,最先接触、最直观的是它的时域波形。下图是一个女性说“习题”的时域波形,语音数据是我从网络上下载得到的,背景环境相对安静。采样频率为44100Hz,采样后进行16位量化。图中横轴为时间,纵轴表示信号的幅度。从图中可以看出,虽然无法辨别语音波形的细节,但可以看出语音能量的起伏,以及语音信号随时间变化的过程。图2女生发音“习题”对应时域波形下图是将“习” 对应部分在时间轴放大后的形状。可以看出,它主要由两部分组成,左边振幅较小的信号对应于辅音发音,而右边具有一定的周期性,并且具有较大的振幅,它的周期就是基音周期。图3女生发音“习”字在时域拉长放大细节图语音信号的频域分

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档