多模式语音端点检测.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多模式语音端点检测.pdf

清华大学学报 自然科学版 年 第 卷 第 期 !# $%%%%%’( - .*%%’ (’ C,+D )# $$***+,# - .=*%%’= B(’= B DCEDCC /012345678329 :2; 0:5 ?@A #@ 多模式语音端点检测 刘 鹏= 王作英 清华大学 电子工程系 北京 - = $%%%D(. 摘 要 在语音信号处理系统中 基于帧能量的语音端点检 1$2 1*2 F = 法是利用音频流的某些特征 如帧能量 或熵 进 = 测 往往受到语音段能量不平 - = . 9@2:7:R292ROPR:R2@3 ?IS 行判决 这些方法有其不足 基于帧能量的方法本 J F 稳及噪声的影响 为了提高语音端点检测的性能和鲁棒性 = = 质上是在进行声音而非语音检测 基于熵的方法虽 U 引入视觉信息 该文提出采用基于数据驱动的线性变换生成 J 考虑了语音的某些特性 但是在像交叠谈话噪声这 = 视 觉特征 在提出一个基于统计的 一般模型的基础上 = ?IS 样的非平稳噪声环境中性能也会明显下降J 构建两个单模式的 系统 通过两步式的融合方法 得到 ?IS = = 1+2 近年来 多模式交互系统 正得到越来越广泛 了多模式的 系统 实验表明 同时利用音频和视觉信 = ?IS J F 的研究 它除利用听觉模式外 还利用其他携带有效 息的多模式?IS 比基于帧能量的听觉?IS 在帧错误率上 = = 信息的模式 如视觉模式 主要是嘴唇的运动图像 有 的相对下降 在断句错误率上有 的相对下 = - . ’’B%T = CDB’T 降 这一结果说明多模式 方法基本可以避免断句错误 来完成语音理解和表达过程 在这样的系统中 可望

文档评论(0)

我的文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档