第1章语音处理基础.docVIP

下载本文档

11
0
约2.66万字
约 45页
2018-02-09 发布于江苏
举报
版权申诉

第1章语音处理基础.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第1章语音处理基础

第1章语音处理基础 1.1 语音处理绪论语音是人类互相之间进行交流时使用最多，最自然，最基本也是最重要的信息载体。在高度信息化的今天，语音处理的一般系列技术及其应用已经成为信息社会不可或缺的重要组成部分。随着电子计算机和人工智能机器的广泛应用，人与机器之间最好的通信方式就是语音通信，要保证良好的通信效果，就有必要对语音进行处理。可见，语言信号处理是融合了语音学与数字信号处理技术的交叉学科，同时与认知科学、心理学、语言学、计算机科学、人工智能等学科紧密相连。语音的产生是一个复杂的过程,包括心理和生理等因素参与作用。当人需要通过语音表达某种信息时，首先得以某种抽象的形式表现在说话人的大脑里。然后转换为一组神经信号，这些神经信号作用于发声器官，从而产生携带信息的语音信号。目前，对语音信号进行研究一般都基于语音信号的数字表示，因此，语音信号的数字表示是进行语音信号处理的基础。语音信号数字化的理论依据是我们熟知的采样定理，即只要采样频率足够高，就可以用时域上周期性抽取的样点来表示一个带限信号。语音信号的离散表示基本上可以分为两类：波形表示和带参数表示。波形表示仅仅是通过采样和量化的过程保存成某种语音产生模型的输出。为了得到参数表示，首先必须对语音进行采样和量化，然后在经济在进一步处理得到语音产生模型的参数。语音模型的参数一般可分为两大类：一类是激励参数；另一类是声道参数。 1.2 语音特征分析语音具有两个基本特点：一个是频率，另一个是振幅。声音的频率与声音的音高有关。振幅与声音的响度有关。声音的频率高，声音就高；反之就低。其次，语音还有一定的音色、音调、音强和音长。音色也称音质，是一种声音区别另一种声音的基本特征。音调是指声音的高低，它取决于声波的频率。音强是只声音的强弱，由声波的振动幅度决定。声音的长短叫音长，其取决与语音的长短。说话时发出的具有响度中心的语音片段叫音节。一个音节由一个或多个音素构成。音素是语音发音的最小单位。任何语音都是由元音和辅音两个基本音素构成的，当声带振动发出的声音气流从喉咙、咽喉进入口腔从唇腔出去的时候，这些声腔完全开放，气流顺利通过，这种音叫元音。呼出的声流因为通路的一部分封闭起来或受到阻碍，气流被阻不能畅通，而克服发音器官产生的音素叫做辅音。发辅音时有声带是否振动，分为清音与浊音。声带振动的是浊音，不振动的是清音。 1.3 语音波形及特征语音信号的数字处理基于语音信号的数字化表示，模拟语音信号经过A/D转换后就得到离散的语音信号数字化采样。语音的数字化采样值以文件形式存储到计算机中后就可以用有关程序或自编程序读出并显示在计算机屏幕上，得到便于观察分析的语音时域波形图。图1-1是英文数字语音”5678”的时域波形，该段语音的频带宽度为355323-9339383HZ,采样频率为10KHZ，持续时间约为4.5s。图中，横轴为时间，纵轴为语音的幅度。图1-1的时间轴的时间轴压得很短，只能看清该段语音的轮廓，无法辨别语音波形的具体细节，从图中可以看出语音信号具有很强的”时变特性”。通过放大可以发觉有些波形段具有很强的周期性，有些波形段具有很强的噪声特性，而且周期性语音和噪声语音的特征也在不断变化之中。但在较短的时间内(例如在5-50ms)，语音信号的特征可以认为基本保持不变，这就是语音信号的”短时平稳性”。语音信号的短时平稳性的可以从对一段语音信号的分析中得知，每一段语音信号称为一”帧”语音，语音段的长度称为帧长。由于语音在10-30ms可以认为是平稳变化的，因此语音的帧长一般取10-30ms。在一帧语音中，为了精细地分析提取出语音的某些特征，有时侯还将进一步将一帧均匀划分为若干个”子帧”，例如，20ms的语音帧如果划分成为四个子帧，则每个子帧的长度为5ms。下面是实验所得一英文数字语言波形图：图 1-1 英文数字语音时域波形图通过采用放大镜对单词“eight”波形放大之后，可以粗约地发现在一小段语音时间内 ,语音具有明显的周期性。这些短时间内的周期平稳特性为研究语音很有作用。下图即为放大了的语音波形：图 1-2 放大的英文数字“8”波形图 1.4 语音信号时域分析语音信号是一种非平稳的时变信号，其产生过程与发声器官的运动有关。发声器官的状态变化速度较声音震动的速度较为缓慢得多，因此语音信号可以认为是短时平稳的。在5到50ms的时间范围内，可以认为语音频谱特性和一些物理特性参数基本保持不变。这样一来，我们可以将平稳过程的处理方法和理论引入到语音信号的短时处理中来，每个短时的语音段称为一个分帧。此时，每个分帧好像是从固有特性的持续语音中截取出来的。也可以采用交叠分帧的方法，一般分帧取10-30ms。语音分帧过程中，所采用的最简单的方法是采用矩形窗