机率式调变频谱分解于强健性语音辨识ProbabilisticModulation.PDFVIP

机率式调变频谱分解于强健性语音辨识ProbabilisticModulation.PDF

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机率式调变频谱分解于强健性语音辨识ProbabilisticModulation

機率式調變頻譜分解於強健性語音辨識 Probabilistic Modulation Spectrum Factorization for Robust Speech Recognition 朱紋儀 高予真 陳柏琳 國立臺灣師範大學資訊工程學系 Department of Computer Science and Information Engineering National Taiwan Normal University {698470075, 699470424, berlin}@.tw 洪志偉 國立暨南國際大學電機工程學系 Department of Electrical Engineering National Chi Nan University jwhung@.tw 摘要 在自動語音辨識技術的發展上,語音強健性一直都是一門重要的研究議題。在眾多的強 健性技術中,針對語音特徵參數進行強化與補償為其中之一大主要派別。其中,近年來 已有為數不少的新方法,藉由更新語音特徵時間序列及其調變頻譜來提升語音特徵的強 健性。本論文即是從語音特徵時間序列的調變頻譜域著手,採用機率式潛藏語意分析之 概念,對調變頻譜施以機率式分解並進行成分分析、進而擷取出較重要的成分以求得更 具強健性的語音特徵 。本方法之所有實驗皆於國際通用的 Aurora-2 連續數字資料庫進 行,相較於使用梅爾倒頻譜特徵之基礎實驗,本方法能達到62.84%的相對錯誤降低率。 此外,我們也嘗試將所提方法跟一些知名的特徵強健技術做結合 ;實驗顯示,相對於單 一方法而言,此結合法可進一步提升辨識精確率,代表所提之新方法與許多特徵強健技 術有良好的加成性 。 關鍵詞: 雜訊強健性、語音特徵參數強化 、調變頻譜、機率式潛藏語意分析 一、緒論 大部份的自動語音辨識(automatic speech recognition, ASR)系統,在不受雜訊干擾的理想 實驗室發展環境下,皆可獲得良好的辨識效果;但若應用至真實的日常環境中,卻往往 因為環境中諸多複雜因素的影響,造成系統之訓練環境與測試環境存在不匹配 (mismatch)的問題,使得此系統之辨識精確率大幅度降低。而以上所述造成環境不匹配 問題的種種因素包含了:語者發音結構差異、語者腔調變異、加成性背景雜訊、摺積性 通道雜訊及其他語者發音的干擾等。所謂的語音辨識之強健性技術,即是致力於降低上 述因素所帶來之影響,進而使語音辨識系統在不匹配問題存在的環境下,仍能保有一定 的辨識能力。 目前而言,針對雜訊干擾的各種語音強健技術大致可分為三種類型:第一種類型為 以聲學模型為基礎之強健性技術(model-based techniques) ,其概念為以不變動語音特徵 為原則,主要作用於聲學模型空間,期望藉由調整聲學模型之參數而能更正確地代表含 環境雜訊之語音特徵;第二種類型為以語音特徵為基礎之強健性技術(feature-based techniques) ,它主要作用於語音特徵空間,期望雜訊語音與其原始乾淨語音在此特徵表 194 示(speech feature representation)域上能趨於一致,藉此降低環境雜訊在語音特徵上所造 成的不匹配效應 ;最後第三個類型為綜合式強健性技術(j oint technique) ,它同時考慮到 上述兩種類型的技術,以達到結合特徵空間與模型空間之資訊為目的。 以語音特徵為基礎之強健性技術的其中之一個研究方向,是對於語音特徵參數之統 計特性加以正規化;此方向涵蓋了著名的倒頻譜平均值減去法(cepstral mean subtraction, CMS)[1] 、倒頻

文档评论(0)

sunshaoying + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档