基于深度学习的水下低速率语音编码关键技术研究.pdf

下载文档

0
0
约9.54万字
约 72页
2025-05-26 发布于广东
举报
版权申诉
保障服务

基于深度学习的水下低速率语音编码关键技术研究.pdf

1、本文档共72页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于深度学习的水下低速率语音编码关键技术研究

摘要

在水下通信中，受到水下通信带宽的要求，在与水下潜水员进行语音通信的过程中，

往往采用低速率语音编码的方案，通过对语音的特征进行传输，并在编码端合成，以此

降低速率。而在水下嘈杂复杂的环境下，传统的低速率语音编码存在多方面的问题，首

先受到人类语言特点的影响，语音中往往存在较多的不包含信息的非语音帧，对于非语

音帧的传输会导致传输效率降低；其次对噪声的无处理传输，会使得解码段合成语音的

效果较差，影响语音的质量和可识别程度；最后低速率语音编码往往也具有合成语音质

量较低，识别度较低等情况，因此，针对上述情况，本文基于混合激励线性预测编码

(MixedExcitationLinearPrediction，MELP)系统，通过神经网络建立分类模块、降噪模

块和参数优化模块，以此来提高系统传输速率和合成端的语音质量，本文主要研究内容

为

1、在语音输入MELP系统前，在语音预处理部分，本文系统通过利用神经网络引

入分类模块和降噪模块，通过分类模块对输入语音进行语音和非语音的分类，对于语音

部分，将其输入之后的降噪模块进行语音增强以后，再输入至MELP中进行特征提取并

传输；对于非语音部分，系统只对数量进行统计传输，以此提高MELP系统对于语义的

传输速率和输入MELP系统中的语音质量。本文利用神经网络中的循环神经网络

(RecurrentNeuralNetwork，RNN)以及栈式自动编码器(StackedAuto-Encoder，SAE)，建

立分类模型，对输入语音信号按帧分为包含语音帧和不含语音帧，并随机选择100段语

音，其中包含各个年龄的男女声音，作为测试集，在对该测试集添加信噪比为-10dB、-

5dB、0dB、5dB、10dB、15dB、20dB的水下气泡声，并在每段语音中间添加经过数据

增强的潜水员吸气声音，将分类模型结果与传统方法双门限法结果进行对比，可以得出

在面对水下非平稳噪声时，-10dB至20dB信噪比下，该模型分类结果均强于传统双门限

法；另一方面，本文引入RNNoise来对输入语音进行降噪处理，RNNoise结合深度学习

和传统数字信号处理，利用深度学习来替代降噪过程中传统谱减法，利用神经网络，在

不同频带上，对降噪权重进行调整，利用RNNoise训练降噪模型，并对传统降噪方案，

例如谱减法，维纳滤波等方案进行仿真实验，并将结果与降噪模型进行对比，对比结果

显示，无论在处理平稳噪声例如高斯白噪声或非平稳噪声如水下气泡声，降噪模型处理

结果在语音质量和信噪比上均优于传统降噪方案处理结果。

2、本文选取MELP低速率语音编码作为传输语音方案，对MELP低速率语音编码

哈尔滨工程大学硕士学位论文

系统进行实现，并且为了对MELP输出语音质量进行提高，设计了针对矢量量化中存在

的量化误差的优化方案，通过神经网络对码书进行拟合，建立模型，通过模型对解码段

接收到的参数进行修正，提高了MELP声码器合成语音的质量。本文首先选取MELP作

为低速率语音编码方案，对MELP的编解码原理进行分析并对其进行代码部署，仿真。

在MELP系统传输语音的过程中，其采用编码端提取特征，量化，对特征进行传输；在

解码端通过解码解量化得到传输的特征，利用传输的特征进行语音合成的方案。该过程

中，特征的准确度对合成语音的还原度、质量有很大影响，准确传输的参数合成的语音

效果高于错误传输参数合成的语音效果，因此，根据上述问题，本文利用神经网络中的

多头注意力机制建立模型，来对语音特征参数传输中，由于量化产生的误差进行弥补，

以此来提高语音质量，经实验，该模块输出的语音结果在MOS分（-0.5分—4.5分）上，

有0.1分左右的提高。

3、为了提高系统整体运行的效果，本文对上述模型以及MELP系统进行部署优化

整合，并引入主观、客观语音评价标准对输出结果进行评估。本文将上述模块针对现实

情况进行优化后封装，通过调用动态库的形式，完成优化后的低速率语音通信系统的软

件设计以及具体实施方案设计，在实际处理语音过程中，本文系统对语音帧进行降噪传

输，对非语音帧进行打包，以记录数量的形式进行传输，并引入语音质量的感知评估

(Perceptualevaluationofspeechquality，PES

您可能关注的文档

文档评论（0）

n1u1 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于深度学习的水下低速率语音编码关键技术研究.pdf