一种基于声韵母分割的汉语语音识别方法.docxVIP

下载本文档

0
0
约1.92千字
约 4页
2025-10-31 发布于山东
举报
版权申诉

一种基于声韵母分割的汉语语音识别方法.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于声韵母分割的汉语语音识别方法

摘要：汉语语音识别研究中，识别单元的选取是很重要的。该文提出一种基于声韵母分割的，以韵母为基本识别单元的大词汇量孤立词的语音识别方法，并与以汉语词为基本识别单元的语音识别方法进行比较识别实验。结果表明，基于韵母为基本识别单元的语音识别性能优于以汉语词为基本识别单元的语音识别方法。

关键词：识别单元声韵母分割大词汇量汉语词

语音识别是近年来十分活跃的一个研究领域。在不远的将来，语音识别技术有可能作为一种重要的人机交互手段，辅助甚至取代传统的键盘、鼠标等输入设备，在个人计算机上进行文字录入和操作控制。按可识别词汇的多少分，语音识别可分为小词汇量语音识别和大词汇量语音识别。两种语音识别系统所采用的处理方法也不完全一样。小词汇量语音识别基本都是以汉语词为基本识别单元，而大词汇量语音识别则多以音素为基本识别单元。该文中，我们主要的研究对象是大词汇量汉语语音识别问题。所以，这里的音素是指汉语的音素，它与英语的音素有比较大的区别。因此，在汉语音素分割处理方面也有不同于通常对英语音素的处理方法。该文介绍了一种基于汉语声韵母分割的，以韵母为识别单元的语音识别方法。

1汉语语音的声韵母分割

汉语普通话是以字为单位的。从声学角度看，汉语中一个字就对应一个音节。因此，音节是汉语语音识别中最自然的识别单位。目前，汉语语音识别逐渐向大词汇量连续语音识别的方向发展，音节作为识别单元已经慢慢被取代。这是因为当词汇量增大时，不可能要求在进行语音数据训练中每个音节重复出现很多次，以得到可靠的结果，那么如何合理地选取语音识别单元，并建立相应的声学模型，是汉语语音识别的关键。因此，必须选取比音节更小的单元（音素）作为训练和识别的基本语音识别单元。

1、1汉语音节的结构

按照我国传统音素分类方法，汉语的一个字节可以看成是由声母和韵母拼合而成，即声—韵母结构是汉语音节结构的显著特点。该结构构成使得汉语音节的声学单元组合具有一定的规律性，在这种结构中汉语音节的过渡音体现了音节的一种过渡性质。即在过渡阶段的起始段保留了较多的声母特性而韵母特性较少；在过渡音末段则保留的声母特性较少而包含较多的韵母特性。其中，核心目标值是绝大多数音节的核心部分，具有典型的频谱模式。也即本文提出的基于声韵母分割的以韵母为识别单元的识别方法的理论依据。因此，将音节划分成声韵母音素作为识别单元是符合汉语特点的。

1、2汉语的波形特征

汉语的每一个字都是一个单音节字。每个单音节又都是由声母和韵母拼音而成。每个韵母又由若干个音节组成有多种声调。因此共组成1200多个有调音节。从汉语的波形特征上看，声母部分的变化很快，周期特性不明显；到了过渡音段，逐渐呈现出周期性，而到了韵母部分，周期特性非常明显，波形显得稳定而有规律；最后能量逐渐减少，但依然保持周期性的特征。因此，任何一个汉语音节（零声母除外），其波形運动周期性呈现无序-基本有规律-有规律。所以只要检测到语音信号波形的变化，才能够很好地进行声韵母的分割了。

2实验

2、1实验用语音库

实验采用了两组数字语音库。（1）特定人的汉语数字（0～9）语音识别时，每个数字100次发音（共1000个样本），其中30次发音（共300个样本）用作训练集，另外70次发音（共700个样本）用作测试集；（2）非特定人的汉语数字（0～9）语音识别时，共10人，5男5女，每人每个数字10次发音（共1000个样本），其中每人每个数字3次发音（共300个样本）用作训练集，另外7次发音（共700个样本）用作测试集。

2、2实验条件

该实验在实验室环境下完成，采用CoolEdit软件录音，数据采样率为16000Hz，量化精度为16bit，帧长取32m（512点），帧移16m，本文将在此环境下得到的语音视为纯净语音。本实验是在基于连续HMM的孤立词语音识别系统上完成。经实验比较，确定HMM的最佳状态数为4，最佳混合度为3（12阶MFCC+12阶△MFCC，△表示一阶差分）训练模型。

2、3实验结果

见表1。

3结语

该文提出了基于声韵母切割的汉语语音识别方法，对该识别单元在特定人和非特定人在汉语语音识别中的应用进行了实验分析，并与传统的汉字词为识别单元的语音识别方法进行了比较。结果表明，本文提出的基于声韵母切割的以韵母为识别单元的识别方法，尽管与传统的基于汉字词为识别单元的识别率差不多，但是，这种基于音素的识别方法能使识别基元大大减少，从而使运算量和贮存量减少，而训练数据量却能相对增多，使得识别速度得到了大大的提高。因此，这种方法应用于大词汇量的汉语语音识别时，优于以汉语词为识别单元的语音识别方法。