- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“万柯”访谈录之语音识别
“万、柯”访谈录之语音识别 万新宇 受访者:柯玉鹏,某汽车厂汽研院总设计师。简称:柯 访问者:万新宇,简称:万 万:柯总,上次谈开车安全时你说到语音识别的重要性,就是“君子动口不动手”,今天来聊一下? 柯:好的,语音识别(ASR)是一项古老的技术,1952年“贝尔”就研制出识别10个英文数字发音试验系统。PC时代的IBM语音输入也有20多年了。苹果的siri来源于更早的军方监听项目。 万:俗话说:人有人言,鸟有鸟语,可是“鸡同鸭讲眼碌碌”(注1),无法沟通。 柯:ASR是一种让机器听懂人类语言的技术,它是人机对话的一项突破。 万:ASR是如何实现的,能否科普一下? 柯:ASR是模式识别的一个分支,一种复杂的处理机制。先说ASR的历史。大规模ASR研究从1970年开始,先在小词汇量、孤立词的识别上取得进展。80年后转向大词汇量、非特定人连续语音的识别。 万:我们就从最简单开始,语音是怎么变文字的? 柯:好,从ABC开始。声音是一种波。ASR是首先把声波前后的静音去掉,然后进行声音分析,就是分帧,把声波切成一个个小段段,每段称为“帧”。当然不是拿刀切,而是用专门工具-移动窗函数。 万:这是ASR的第一步? 柯:分帧后,要根据人耳的特点做波形转换,把每一帧变成一个多维向量(注2)。 万:这第二步,就包含了语音的内容信息了? 柯:对,这个过程叫声学特征提取。这样,声音就成了一个12行(这里假定声学特征是12维)N列的矩阵,成了一个观察序列。N为总帧数,你看图中,每一帧都有一个12维的向量,色块的深浅表示向量值的大小。 万:那如何把矩阵变成文本呢? 柯:先说两个概念:一个是音素;一个是状态(比音素更小的单位)。一个音素含三个状态。接下来三步走:首先把帧识别成状态;其次把状态组合成音素;最后把音素组成单词。每个竖条代表一帧,若干帧对应一个状态,三个状态合成一个音素,若干音素组成一个单词。 万:只要知道每帧语音对应哪个状态,语音识别就出来了? 柯:是的。可惜没有明确的某帧对某状态,只能看概率,某帧对应哪个状态的概率最大,那这帧就属于那个状态。 万:那,这些用到的概率从哪儿来呢? 柯:事先有个“声学模型”里存了很多的参数,通过它,就知道帧和状态对应的概率。获取这一大堆参数的方法叫训练。 万:这好像有一个问题,每一帧得到一个状态号,整个语音就会得出一堆的状态号来? 柯:是的,假设有1000帧,每帧对1个状态,3个状态组合1个音素,会有300多个音素,其实这段语音没这么多音素。实际上相邻祯的状态大多数都相同才合理。 万:怎么来解决这个问题呢? 柯:最常用的方法是隐马尔可夫模型(HMM),我们戏称它“好妹妹”。 万:你的“好妹妹”是什么仙女? 柯:玩笑话。一般来说,时间和状态都离散的过程被称为马尔科夫链。说个蛙跳的例子水池中有N张荷叶,为1,2,3,……,N,即蛙跳有N个状态。青蛙所在荷叶,是目前所处的状态;未来的状态,只与现在所处状态有关,与以前的状态无关 万:语音信号也有马尔可夫性? 柯:语音信号是可观测的,但观察到的只是大脑依据语法知识和言语需要(隐过程)发出的音素流(显过程)。“隐过程”通过“显过程”表现出来,可以通过“显过程”推测“隐过程”,它们之间有概率关系。 万:能否举个例子? 柯:一个经典的例子:一个乌鲁木齐朋友每天根据天气(下雨,天晴)决定当天的活动(自习,游玩,宅着)中的一种,我每天只能在微信上看到他发的“我前天游玩、昨天自习、今天宅着!”,那么我可以根据他发的微信推断乌鲁木齐这三天的天气。在这个例子里,“显过程”是活动,“隐过程”是天气。可以通过概率计算出天气状况。 万:我们的声音是一个物理现象,是由声带、喉咙大小、舌头位置多种作用的结果? 柯:是的的原理是将内部语音产生看作是,将声音结果看做观察的状态,观察到的状态序列与隐藏过程有一定的概率关系。用隐马尔科夫模型对这样的过程建模,这个模型包含了一个底层隐藏的随时间改变的马尔科夫过程,以及一个与隐藏状态某种程度相关的可观察到的状态集合。 万:请对整个语音识别的路径再归纳一下。 柯 万:我感觉语音识别的过程和人的认知过程有相似之处,都是通过“自我相似”的过程实现的,看见云彩,知道是云彩,看见一座山,知道是一座山,凭什么?就是“自我相似”,因为儿时在脑子里建立了云的模型、山的模型。 柯:上周日我带八岁的女儿下乡度假,她愣是不认识毛驴。 万:城里的孩子没见过驴,因为脑子里没有“建模”?柯:所以,看见也不认识它。ASR本质上也是“自我相似”。 万:你的意思是先在计算机里建立语音(语言)识别的模型库后进行逐个比对? 柯:大概意思差不多。三个步骤:1、特征提取(对听见的语音分析并建立模板)、2、模式匹配(与原有内存的模板比对)、3、参考模型库(查表选出特征最优
您可能关注的文档
最近下载
- 保时捷Cayenne驾驶手册2015款汽车用户操作使用说明书电子版.pdf
- 四川省成都市武侯区成都西川中学2023-2024学年九年级上学期期末数学试题(含解析).docx VIP
- 石油装备行业分析报告.pdf VIP
- 钟君申论万能思维体系新版(2024年整理).pptx VIP
- 工伤认定与工伤争议处理技巧.pptx VIP
- 铁路营业线施工管理办法(必威体育精装版版).docx VIP
- Unit 3 Amazing animals Part B Let’s learn & Listen and chant(教案)-2024-2025学年度-人教PEP(2024)英语三年级上册.docx VIP
- 机场场道工程道面混凝土质量通病分析集锦.docx
- 好书推荐《钢铁是怎样炼成的》名著导读阅读分享PPT课件.pptx VIP
- 小学课件:《绿水青山就是金山银山》.pptx
文档评论(0)