- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于时频二维能量特征的汉语音节切分方法.doc
基于时频二维能量特征的汉语音节切分方法
摘 要:较准确的语音切分方法可以极大提高语料标注等工作的效率,有助于语音识别等应用中语音与模型的对齐。利用汉语语音在时频二维的能量特征设计了一种新的汉语语音音节切分方法。用传统方法判断静音帧,用相同时间不同频率的二维能量判断清音帧,用不同时间特定频段的0-1二维能量判断浊音帧及有话帧,综合4种判断结果给出音节切分位置。实验结果表明,该方法切分准确度优于基于归并的音节切分自动机(MBSDA)和高斯拟合法,其音节切分误差为0.0297s,音节切分偏差率为7.93%。
关键词:音节切分;时频二维;短时能量;切分偏差率
中图分类号:TP391.4
文献标志码:A
文章编号:1001-9081(2016)11-3222-07
0 引言
在信息科学领域,对语音切分的定义有:对语音信号突变位置的检测[1];估计有话和无话部分的位置及时长[2]等。目前,语音切分方法基本可以分为基于切分单元对齐的方法、基于切分单元边界的方法以及同时利用切分单元特性及边界特性的方法。其中基于切分单元对齐的方法多利用隐马尔可夫模型(Hidden Markov Model,HMM)[3-5];基于切分单元边界的方法常使用小波变换[6]、神经网络[7]或者仿生特点检验[8-9]等技术;同时利用切分单元特性及边界特性,则有助于方法性能的提升[10]。语音切分的对象可以分为自然语音和合成语音等,而语音切分单元可以分为音节和音素等。由于英语等印欧语系语言的特点,国外对音节切分的研究较少,主要研究集中在音素切分[3-4,6-7],相关研究的机构有剑桥大学、哥伦比亚大学及韩国国立大学等。在国内,从事相关研究的机构有中国科学院研究生院、北京邮电大学及哈尔滨工业大学等,研究方向有语音音素切分[11]、音节切分[12-13]。
近些年在汉语连续语音音节切分方面的成果较少,常用的方法是1999年提出并在2006年进一步完善的归并法(全称基于归并的音节切分自动机(Merging-Based Syllable Detection Automaton,MBSDA))[12-13],必威体育精装版方法有基于音节时间长度高斯拟合的汉语音节切分方法(后面简称高斯拟合法)[14]。然而这些音节切分方法主要关注语音参数的一维变化特征,或者将众多参数的一维变化特征累积进行判断,如归并法就利用了过零率、基因周期、短时能量等参数随时间变化的特征进行联合判决。文献[6]利用小波变换将语音时频二维特征映射到一维当中,文献[8]在语谱图中寻找发音特征边界进行切分,这些方法利用了语音二维变化特征进行音素切分并卓有成效。本文利用汉语语音在时频二维的能量特征,设计了一种新的汉语语音音节切分方法。实验结果表明,该方法切分准确度优于归并法和高斯拟合法,其音节切分误差为0.0297s,音节切分偏差率为7.93%。
1 二维能量概念的引入
在传统的汉语音节切分工作中,粘连语音是切分的难点。图1(a)为某粘连语音的波形图。依照此波形图对这段语音进行人工音节切分十分困难。然而,结合语音的语谱图对粘连语音进行人工音节切分十分容易。图1(b)为该段语音的语谱图,图中越明亮的方格表明在此处能量越大,在图中可以轻易找到音节切分的大概位置(用白色竖线标出)。同理,利用语音能量在时频两个维度的特征可以更好地进行音节切分。若时间精度为Δt,频率精度为Δf,定义二维能量eij为在(i-1)?Δt到i?Δt时间段内,(j-1)?Δf到j?Δf频带间的能量,其中i、j为正整数。
图2(a)为依据式(1)和式(2)对语音进行时频0-1化后绘制的0-1语谱图,图2(b)为依据改进方法对语音进行时频0-1化后绘制的0-1语谱图。
对比图2(a)与图2(b)中黑框框出的部分,可以看出改进的语音时频二值化方法能更清晰地描述浊音开头音节能量在时频二维中的特征,音节边界更加清晰。
4 实验
实验在Matlab环境下进行,选取语音共3930段,每段语音音节数已知,在10~50不等,语音采样率fs为16kHz。随机挑选其中30段语音进行人工音节切分,并与传统的归并法、近期发表的高斯拟合法及本文提出的二维能量特征法的切分结果进行对比。为了与语音真实音节相区分,后文将利用音节切分方法切分出的对应单位语音称为切分音。
归并法的原理 将语音过零率、基音周期、短时能量等特征参数相似的相邻帧进行归并,形成相似段;将特征发生突然变化的位置记作1类转折,将特征发生缓慢变化的位置记作2类转折;将不同声韵母及静音按照其特性划分到1或2类转折中;利用转折位置进行划分。归并法可选择固定门限或可变门限,可变门限需结合提前得知的语音段音节个数设定。由于固定门限对不同语音
文档评论(0)