语音识别芯片工作原理.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别芯片工作原理.pdf

LD332X LD332X LLDD333322XX系列语音识别芯片的工作原理: LD3320提供的语音识别技术,是基于关键词语列表的识别技术:ASR(Auto speech recognition )技术。 语音识别芯片完成的工作就是:把通过 MIC输入的声音进行频谱分析-提取语音特征-和 关键词语列表中的关键词语进行对比匹配-找出得分最高的关键词语作为识别结果输出。 语音识别芯片能在两种情况下给出识别结果: 1)外部送入预定时间的语音数据后(比如5秒钟的语音数据),芯片对这些语音数据运算分 析后,给出识别结果 2)外部送入语音数据流,语音识别芯片通过端点检测VAD(voice activitydetection)检测 出用户停止说话,把用户开始说话到停止说话之间的语音数据进行运算分析后,给出识别结 果 对于第一种情况,可以理解为设定了一个定时录音(比如为5秒钟),芯片在5秒钟后,会停 止把声音送入识别引擎,并且根据已送入引擎的语音数据计算出一个识别结果。 对于第二种情况,需要了解VAD 的工作原理: VAD(VoiceActivityDetection) 技术是在一段语音数据流中,判断出哪个时间点是人声的 开始,哪个时间点是人声的结束。判断的依据是,在背景声音的基础上有了语音发音,则视 为声音的开始。而后,检测到一段持续时间的背景音(比如600毫秒),则视为人声说话结 束。 通过VAD判断出人声说话的区域后,语音识别芯片会把这期间的声音数据进行识别处理后, 计算出识别结果。 需要说明的是,除了以上两种情况外,语音识别算法无法主动地判断出是否识别出了一个 结果。这是因为,在计算的过程中的任何时刻,语音识别器都会对已送入识别芯片的声音数 据进行分析,并根据匹配程度为识别列表中的关键词语进行打分,最匹配的打分最高。 但是,由于识别算法不知道用户后面是否还继续说语音,所以无法主动地判断已经识别出 一个结果。 比如,识别列表中有两个关键词语分别是李晓和李晓明,当用户说到晓这个音节时, 在识别芯片内部是李晓的得分最高,但此时识别芯片是无法给出识别结果。随着用户说出 明音节后,李晓明则成为得分最高。此时,用户停止说话,或者是定时录音已到,使得 识别芯片可以判断出用户已经停止说话了,才能给出识别结果是李晓明。

文档评论(0)

尐丶丑 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档