- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
藏语单音节的语音端点检测.doc
藏语单音节的语音端点检测 摘 要:预处理过程在语音识别中起着至关重要的作用。对于藏语语音识别的预处理研究借鉴的是英语单音节的语音处理方法,在语音识别系统中正确的判定输入语音的起点、终点对于提高识别率是非常重要的。在高信噪比情况下,滤除噪声是很容易的,用短时能量幅度就可以获得较好的检测结果。但在低信噪比情况下要想有效的去噪就必须采用短时能量幅度和短时平均过零率结合的方法。这篇文章采用两种方法的结合来处理藏语单音节,可以做到准确率较高的确认语音的端点,并能在低信噪比情况下滤除噪声,识别清浊音。实验证明了此种方法不仅正确,而且提高了检测的准确度。 关键词:语音识别;端点检测;预处理 1 引言 端点检测就是把给出的一段语音找出该信号的起点和终点。预处理在语音识别系统中起着至关重要的作用,决定着识别率的高低,其中端点检测的作用是对不必要的噪声直接除去,减少存储空间,提高计算机运算的效率以及减少运算量。更重要的是端点检测可以增加语音识别的精确度,对语音段噪声进行特征识别,进而除去噪声所占有的能量尽量确保语音识别过程不受噪声的干扰。对于藏语语音的端点检测采用传统的方法即短时平均过零率和短时能量。在背景噪声较小的情况下,短时能量比较准确,但当背景噪声较大时,短时平均过零率可以获得较好的检测结果。因此一般的识别系统,其前端的端点检测过程都是将这两个参数结合用于检测语音的。 2 语音系统中端点检测的方法 语音信号是时域上的非平稳信号,所以处理平稳信号的数字信号处理技术是不能直接使用了。但是在一段较短时间范围内(10ms-30ms)语音信号的特性基本相对稳定,即语音信号具有短时平稳性,也就是短时性。 2.1 预加重 (1)在处理不同的对象时,语音识别系统就会有相应的处理方法,语音信号的特性决定了处理方法和模式基本相同,因此对于所有藏语语音单音节的处理就具有了解决方案,本文以单音节‘’为例进行端点检测。 首先确定语音信号的频率范围,一般的语音信号都在300-3400Hz之间,采样过程取采样频率为8kHz,160个采样点为一帧,80个采样点为步长。对输入的藏语单音节‘’的数字语音信号进行预加重,增加了高频分辨率而且便于分析。本文采用传递函数为H(z)=1-αz-1的一阶FIR高通数字滤波器来实现预加重,其中α为预加重系数,0.9α1.0。经预加重处理后的结果为 3 双门限端点检测 基于短时能量和短时过零率共同决定端点的方法,短时能量能分辨出清音和浊音,短时平均过零率能分辨出清音和静音。一般的对参数设两个门限值,设置的第一个低门限值用来粗略估计语音信号是否进入语音阶段,第二个门限值则确定语音信号进入语音阶段。 要通过多次实验确定检测的高低门限,根据当时的信噪比环境结合共同确定检测的高低门限。信噪比的差异是由于语音的开始和结束由于时间上的差异造成的,所以门限选择的复杂性也就产生了。 具体步骤是把一个语音信号分成四个阶段:静音、开始、过渡、结束四个阶段。在编程过程中为了决定下一个是什么阶段就设置一个量来辨别当下的状态。整个过程是在静音阶段开始超过门限,则进入语音段,而后低于门限进入结束。判断是以门限值为根据,最短语音作为辅助来提高整体精度。为了防止一些突发性的噪声,我们设置的最短语音和最短静音就可以起到很好的作用。 在MATLAB环境下双门限语音端点检测,对于语音信号的样本,是采用麦克风采集的语音信号‘’,保存方式是以wav格式存储。开始语音端点检测之前,预处理采集到的语音信号,包括分帧,加窗等。本文用汉明窗,通过窗函数特性为(1-0.93Z-1)的滤波器进行预加重。而后设置参数,设置语音帧长,帧移,FFT,门限阀值设置等。在环境比较安静的条件下采集语音,为了更加有效的得出仿真结果,加随机幅度序列与原始语音信号匹配,这样提高了噪声信号的短时能量,以及过零率,基于短时能量和过零率的语音端点检测结果如图2所示,基本可以反映有效的检测效果。如果加高斯白噪声以降低信号的信噪比,得出的结果就不能够进行有效的检测了。 4 结语 语音端点检测是语音识别中至关重要的部分,决定着识别的效果,而且减少了大量的计算。本文对于藏语语音的端点检测算法进行了研究,选择了两种不同特征参数的算法,并在MATLAB下进行了仿真,其主要成果如下: (1)首先进行了传统的基于短时能量和过零率的语音端点算法研究,进行了实验仿真。 (2)选择了藏语单音节进行了研究,在不同噪声的环境下进行了仿真实验。 (3)根据同一语音信号分别在不同算法下进行了仿真实验比较,评述了每一种端点检测算法的优点和缺点。实验证明藏语语音的端点检测同样可以得到很好的结果。 参考文献 [1]胡光锐
有哪些信誉好的足球投注网站
文档评论(0)