卷积神经网络在语音识别中的应用.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
卷积神经网络在语音识别中的应用

第3卷第6期2014 年 11月网络新媒体技术Vol. 3 No.6Nov.2014卷积神经网络在语音识别中的应用*张晴晴刘勇王智超潘接林颜永红( 中国科学院声学研究所语言声学与内容理解重点实验室 北京 100190)摘要: 研究了使用卷积神经网络构造模式分类器,并用于连续语音识别的研究。CNNs相比于广泛使用于语音识别中的深层神经网络(DeepNeuralNetwork,DNNs),能在保证性能的同时,大大压缩模型的尺寸。在标准语音识别库TIMIT上的实验结果证明,相比传统 DNN 模型,CNN 模型的识别性能更好,同时其模型规模和计算量都有明显降低。关键词:卷积神经网络,连续语音识别,权值共享TheApplicationofConvolutionalNeuralNetworkinSpeechRecognitionZHANG Qingqing,LIU Yong,WANG Zhichao,PAN Jielin,YANYonghong(KeyLaboratoryofSpeechAcousticsandContentUnderstanding,ChineseAcademyofSciences,Beijing,100190,China)Abstract:ConvolutionalNeuralNetworks(CNNs)areinvestigatedforcontinuousspeechrecognitionsinthepaper.ComparedtoDeepNeuralNetworks(DNNs),whichhavebeenproventobesuccessfulinmanyspeechrecognitiontasksnowadays,CNNscanreducetheNNmodelsizessignificantly,andatthesametimeachieveevenbetterrecognitionaccuracies.ExperimentsonstandardspeechcorpusTIMITshowedthatCNNsoutperformedDNNsinaccuracy.Keywords: Convolutional Neural Networks,Continuous speech recognition,Weight -sharing1引言语音识别是人机交互的一项关键技术,在过去的几十年里取得了飞速的进展。传统的声学建模方式基 于隐马尔科夫框架,采用混合高斯模型(GaussianMixtureModel,GMM)来描述语音声学特征的概率分布。 由于隐马尔科夫模型属于典型的浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构,在海量数据下其性能受到限制。人工神经网络(ArtificialNeuralNetwork,ANN)是人们为模拟人类大 脑存储及处理信息的一种计算模型。近年来,微软利用上下文相关的深层神经网(ContextDependentDeepNeuralNetwork,CD-DNN)进行声学模型建模,并在大词汇连续语音识别上取得相对于经鉴别性训练HMM系统有句错误率相对下降23.2%的性能改善\[1\],掀起了DNN在语音识别领域复兴的热潮。目前包括微软、IBM、Google在内的许多国际知名语音研究机构都投入了大量的精力开展DNN的研究\[2\]。实际上,人工神经网络的应用非常广泛,种类也多种多样。在文本\\图像分割和文本检测中,另一种更为有效的人工神经网络结构被普遍使用:卷积神经网络CNNs(ConvolutionalNeuralNetworks,CNNs)\[3\]。本文于2014-07-10收到。*基金项目: 国家自然科学基金( 编号: 1116114031961271426) ,中国科学院战略性先导科技专项( 面向感知中国的新一代信息技术研究,编号:XDXD,国家863计划(编号:2012AA012503),和中科院重点部署项目(编号:KGZD-EW-103-2)基金资助。40网络新媒体技术2014年CNNs 的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。由于这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性,所以在图像处理中得到了广泛的使用。在本研究中,CNNs 被引入连续语音识别中,并和目前广泛使用的 DNNs 模型进行了对比。相比DNNs,CNNs 能够在保证识别性能的同时,大幅度降低模型的复杂度( 规模) 。同时,CNNs 也具有更合理的物理意义,由此降低对前段语音特征提取的依赖。本研究在标准英文连续语音识别库 TIMIT① 上面

文档评论(0)

zhuwenmeijiale + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档