基于LVCSR的关键词检测.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于LVCSR的关键词检测.pdf

全已网络与信息安令杖术研衬套泊火禅 似 基于LVCSR的关键词检测 潘接林,张建平,韩疆,刘晓星,颜永红,吕萍,李明,赵庆卫 中‘科院声学所中科信利语音实验室) 摘 要:语音的关键词检测技术有着广泛的应用,本文提出了一种基于大词表连续语音识别技术的关键词检测方法,该 方法用汉语的全部有调音节作为filler模型建模,然后融入语言模型的知识,初步实现了一个连续语音流的关键词检 测系统,实验结果表明,在6.5小时的新闻联播语料,关键词为25个的测试集上召回率为98.4%,精度为25.6%。在关 键词表数为298个的测试集上,召回率为:92.2%,精度为27.3% 关健词:关键词检测,LVCSR,语言模型 1 引言 随着互联网 (Internet)的普及,信息的大量积累变得非常快捷并且能及时呈现给用户。综观当今通信 领域,不管是Internet网还是电信河。网络安全一直倍受人们的关注。比如电话网络上的恶意呼叫、电话欺 诈与恐吓,网络上的非法宣传等,都给人们带来不必要的麻烦,近年来一些政治上的敌对势力利用高科技手 段,从境外或境内通过互联网和电话发送反动录音到我有关机关、部门及个人,对我实施恶意骚扰,严重破 坏了政府工作秩序和社会正常通信秩序。面对这一恶劣的信息攻击行为,除了进行坚决的司法行政打击外, 还必须采取有效的防范措施,从技术上加以遏止。语音中的关键词检测技术是其中的一个技术手段。 关键词检测是要在连续的语音流中检测出给定的关键词表中的关键词出现的次数,解决这一问题方法有 许多种,早期人们通常采用模板匹配的方法,如Bridle采用动态规划的方法来做关键词检测[1],目前流行 的方法是采用隐含马尔可夫模型HMM(HiddenMarkovModel),如Higginsetal.在[2〕中介绍了用这一方 法来实现了一个连续语音流中的关键词检测系统。然而由于待检测的语音流中除了关键词之外的语音可以是 任何发音,因此语言模型的知识很难运用到关键词检测中来,如果仅仅依靠声学层的信息,要从任意的连续 语音流中检测出所需的关键词是一件很困难的事情。对于关键词检测任务来说,已知的先验知识就是预先给 定的关键词表,如何在有哪些信誉好的足球投注网站算法中充分利用这一已知信息对于关键词检测系统的性能有着重要的影响。这是 本文需要探讨的一个问题,在这里我们以大词表连续语音识别 (LVCSR)技术为基础,将关键词表的信息融入 到语言模型中,提出了一套关键词检测的方法,并构成了一个关键词检测系统。 在下面我们首先介绍系统的构成,及各组成部分的具体实现,然后介绍我们的实验结果,最后探讨下一 步我们需要继续做的工作。 2 系统介绍 这里我们提出的关键词检测系统是以LVCSR为基础,然而在算法上针对关键词检测的任务,有了许多改 进。整个系统的构成如图I所示 ‘以下对系统中每个模块做详细说明。 2.1 词表定义及fi日er模型选择 在一个语音识别系统中,需要有一个基本词表。在一般的中文LVCSR系统中,由于需要准确的识别出用 户的所有发音并要转换为正确的汉字,因此词表往往包括几万条甚至十几万条词;而关键词检测系统只需要 检测出关键词,而除了关键词之外可以是任何有意义或无意义的语音,因此与一般的LVCSR系统词表定义不 同,这里我们定义关键词检测系统的词表除了包括预先知道的关键词之外,其他的语音的用何种方法来表示, 也即是如何选择filler或Garbage模型的问题。这一问题对关键词检测系统的识别性能有着很大的影响。 令田网格与信息安今伎术研讨奋,a.5w 我们知道汉语有1289个有调音节,这些有调音节涵盖了汉语所有的发音,因此它们应该能够作为filler, 因此我们的关键词检测系统的词表为:关键词数++1289有调音节。这样我们的词表就覆盖了任意的语音。 2.2前端处理 图I 系统结构框图 由于关键词检测系统输入的是连续的语音流,前端处理首先要将连续的语音流进行切分断句,这样做的原 因之一是为了提高系统的识别速度,另一方面,由于识别系统中语言模型的生成是基于句子的,因此这样做 能够使语言模型的重新复位,以提高系统的识别性能。 语音的切分主要采用的特征参数是能量,切

文档评论(0)

docinppt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档