网站大量收购独家精品文档,联系QQ:2885784924

基于深度学习的水下低速率语音编码关键技术研究.pdf

基于深度学习的水下低速率语音编码关键技术研究.pdf

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于深度学习的水下低速率语音编码关键技术研究

摘要

在水下通信中,受到水下通信带宽的要求,在与水下潜水员进行语音通信的过程中,

往往采用低速率语音编码的方案,通过对语音的特征进行传输,并在编码端合成,以此

降低速率。而在水下嘈杂复杂的环境下,传统的低速率语音编码存在多方面的问题,首

先受到人类语言特点的影响,语音中往往存在较多的不包含信息的非语音帧,对于非语

音帧的传输会导致传输效率降低;其次对噪声的无处理传输,会使得解码段合成语音的

效果较差,影响语音的质量和可识别程度;最后低速率语音编码往往也具有合成语音质

量较低,识别度较低等情况,因此,针对上述情况,本文基于混合激励线性预测编码

(MixedExcitationLinearPrediction,MELP)系统,通过神经网络建立分类模块、降噪模

块和参数优化模块,以此来提高系统传输速率和合成端的语音质量,本文主要研究内容

1、在语音输入MELP系统前,在语音预处理部分,本文系统通过利用神经网络引

入分类模块和降噪模块,通过分类模块对输入语音进行语音和非语音的分类,对于语音

部分,将其输入之后的降噪模块进行语音增强以后,再输入至MELP中进行特征提取并

传输;对于非语音部分,系统只对数量进行统计传输,以此提高MELP系统对于语义的

传输速率和输入MELP系统中的语音质量。本文利用神经网络中的循环神经网络

(RecurrentNeuralNetwork,RNN)以及栈式自动编码器(StackedAuto-Encoder,SAE),建

立分类模型,对输入语音信号按帧分为包含语音帧和不含语音帧,并随机选择100段语

音,其中包含各个年龄的男女声音,作为测试集,在对该测试集添加信噪比为-10dB、-

5dB、0dB、5dB、10dB、15dB、20dB的水下气泡声,并在每段语音中间添加经过数据

增强的潜水员吸气声音,将分类模型结果与传统方法双门限法结果进行对比,可以得出

在面对水下非平稳噪声时,-10dB至20dB信噪比下,该模型分类结果均强于传统双门限

法;另一方面,本文引入RNNoise来对输入语音进行降噪处理,RNNoise结合深度学习

和传统数字信号处理,利用深度学习来替代降噪过程中传统谱减法,利用神经网络,在

不同频带上,对降噪权重进行调整,利用RNNoise训练降噪模型,并对传统降噪方案,

例如谱减法,维纳滤波等方案进行仿真实验,并将结果与降噪模型进行对比,对比结果

显示,无论在处理平稳噪声例如高斯白噪声或非平稳噪声如水下气泡声,降噪模型处理

结果在语音质量和信噪比上均优于传统降噪方案处理结果。

2、本文选取MELP低速率语音编码作为传输语音方案,对MELP低速率语音编码

哈尔滨工程大学硕士学位论文

系统进行实现,并且为了对MELP输出语音质量进行提高,设计了针对矢量量化中存在

的量化误差的优化方案,通过神经网络对码书进行拟合,建立模型,通过模型对解码段

接收到的参数进行修正,提高了MELP声码器合成语音的质量。本文首先选取MELP作

为低速率语音编码方案,对MELP的编解码原理进行分析并对其进行代码部署,仿真。

在MELP系统传输语音的过程中,其采用编码端提取特征,量化,对特征进行传输;在

解码端通过解码解量化得到传输的特征,利用传输的特征进行语音合成的方案。该过程

中,特征的准确度对合成语音的还原度、质量有很大影响,准确传输的参数合成的语音

效果高于错误传输参数合成的语音效果,因此,根据上述问题,本文利用神经网络中的

多头注意力机制建立模型,来对语音特征参数传输中,由于量化产生的误差进行弥补,

以此来提高语音质量,经实验,该模块输出的语音结果在MOS分(-0.5分—4.5分)上,

有0.1分左右的提高。

3、为了提高系统整体运行的效果,本文对上述模型以及MELP系统进行部署优化

整合,并引入主观、客观语音评价标准对输出结果进行评估。本文将上述模块针对现实

情况进行优化后封装,通过调用动态库的形式,完成优化后的低速率语音通信系统的软

件设计以及具体实施方案设计,在实际处理语音过程中,本文系统对语音帧进行降噪传

输,对非语音帧进行打包,以记录数量的形式进行传输,并引入语音质量的感知评估

(Perceptualevaluationofspeechquality,PES

文档评论(0)

n1u1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档