有关语音识别的部分名词摘要.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
声谱图:分帧对语音信号进行短时FFT计算,将每帧信号的频谱图旋转90度,用从白到黑的256个量化值表示频谱图的幅度值,这样得到的一个关于时间变化的频谱图就是声谱图。 (1) 共振峰:声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率语图上表现为浓重的黑色条纹。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。 在语音声学中,共振峰决定着元音的音质,而在计算机音乐中,它们是决定音色和音质的重要参数。 (2) 典型的声音共振峰频率如下: 元音平均共振峰 ISBN 978-0198242178 元音 (IPA) 共振峰 f1 共振峰 f2 i 240?Hz 2400?Hz y 235?Hz 2100?Hz e 390?Hz 2300?Hz ? 370?Hz 1900?Hz ? 610?Hz 1900?Hz ? 585?Hz 1710?Hz a 850?Hz 1610?Hz ? 820?Hz 1530?Hz ɑ 750?Hz 940?Hz ? 700?Hz 760?Hz ? 600?Hz 1170?Hz ? 500?Hz 700?Hz ? 460?Hz 1310?Hz o 360?Hz 640?Hz ? 300?Hz 1390?Hz u 250?Hz 595?Hz 倒谱分析:倒谱就是一种信号的傅叶变换经对数运算后再进行傅叶反变换得到的谱 1)将原语音信号经过傅叶变换得到频谱:X[k]=H[k]E[k]; 只考虑幅度就是:|X[k] |=|H[k]||E[k] |; 2)我们在两边取对数:log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。 3)再在两边取逆傅叶变换得到:x[k]=h[k]+e[k]。 图(2)所对应的信号的倒谱分析过程如图(3): (3) Mel倒谱分析:人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的。 (4) 梅尔频率倒谱系数考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。将普通频率转化到Mel频率的公式是: (5) 在Mel频域内,人对音调的感知度为线性关系。举例来说,如果两段语音的Mel频率相差两倍,则人耳听起来两者的音调也相差两倍。 预加重电路的频率响应 去加重的频率响应 分帧:将连续时间信号分为10~30ms长度的小段信号,将这个长度的信号看成 汉明窗:语音信号一般在10ms到30ms之间,我们可以把它看成是平稳的。为了处理语音信号,我们要对语音信号进行加窗,也就是一次仅处理窗中的数据。因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理。明智的解决办法就是每次取一段数据,进行分析,然后再取下一段数据,再进行分析。 怎么仅取一段数据呢?一种方式就是构造一个函数。这个函数在某一区间有非零值,而在其余区间皆为0.汉明窗就是这样的一种函数。它主要部分的形状像sin(x)在0到pi区间的形状,而其余部分都是0.这样的函数乘上其他任何一个函数f,f只有一部分有非零值。 M Mel频率倒谱系数()? 我们将频谱通过一组Mel滤波器就得到Mel频谱。公式表述就是:log X[k] = log (Mel-Spectrum)。这时候我们在log X[k]上进行倒谱分析: 1)取对数:log X[k] = log H[k] + log E[k]。 2)进行逆变换:x[k] = h[k] + e[k]。 在Mel频谱上面获得的倒谱系数h[k]就称为Mel频率倒谱系数,简称MFCC。

文档评论(0)

琼瑶文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档