- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人机交互ch06-语音交互解析,语音人机交互,语音识别人机交互,人机语音交互技术,人机交互,人机交互技术,人机交互实验报告,人机交互界面设计案例,人机交互方式有哪些,人机交互设计
Chapter 6 – 语音交互 郭亚军 金先级 6.1 语音交互的特点 在日常沟通中,人类的沟通大约有75%是通过语音来完成的。研究表明,听觉通道存在许多优越性,如听觉信号检测速度快于视觉信号检测速度;人对声音随时间的变化及其敏感;听觉信息与视觉信息同时提供可供人获得更强烈的存在感和真实感等。因此,听觉通道是人与计算机等信息设备进行交互最重要的信息通道。 语音交互是研究人们如何通过自然的语音或机器合成的语音同计算机进行交互的技术。它是一个多学科交叉的边缘学科,需要语言学、心理学、工程和计算机技术等领域的专业知识,不仅要对语音识别和语音合成技术进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音识别和语音合成的相结合,即构成一个“人机通信系统”。 语音交互系统一般采取两种途径: 用基于语音识别和理解技术的主要依靠音频进行交互的系统。音频包括语音和声音,语音特指人的话音,而声音指除去语音的其他声音,如音乐、铃声等。使用这种方式,人们可以通过语音和声音与计算机进行交互。 利用语音技术与系统的其他交互形式(通常是图形交互界面)结合在一起来进行交互的系统。这种方式中语音不再占主导地位,它只是交互系统的一部分。(见书图6.1) 语音在人机交互过程中的特点: 语音的高效性。语音是一种高效的交流媒体,包含着丰富的信息,而且语言基本上是人思维的反应。人在使用键盘进行文本输入时,与手指击键输出所想到的词语的同时,用户还会对他的话语和措辞做进一步的琢磨。在对话中,用户在想法的产生和对其进行阐述的过程中,会有更多的参与。 自然性。语音与其他交流手段相比更加自然,并且其认知负荷比较低,不需要一直占据用户的注意力。 灵活性。语音对物理空间的资源占用比较少,受工作空间的限制比较少,可以再空间狭小、照明不佳等不良条件下正常使用,因此适合在不能有效利用视觉通道传递信息的场合中采用。 动作与语音同时进行。人可以在进行肢体动作同时讲话,但不能在思考的同时讲话。因此,人们发现在操作计算机时可以在敲键盘和移动鼠标的同时进行思考,但却很难在说话的同时进行思考。语音可单独使用,也可结合鼠标、输入笔等指点式设备进行交互、完成目前WIMP界面中通常的操作任务。 敏感性。人们对声音信号比较敏感,利用声音进行提示和报警是常用的方法,在信息随机呈现并要求操作员立即采取行动的任务中也非常合适。 短暂性。语音信号一旦发出就不可在得到了,因此用户需要记住这些信息,要消耗用户大量的短时记忆资源,增加使用者的记忆负担。 信息呈现慢。语音在信息呈现方面很慢,且语音信息难于进行回溯和编辑处理,还会干扰其他的认知任务但是语音被证明在信息的前向处理上很有用,如在紧急环境下的报警为盲人和行动不便者提供输入和输出的途径。 使用效率高。语音使用效率较高,说话的表达方式比写字和打字速度快,但对于听众来说,听别人说话却比自己阅读要慢得多。与图形化用户界面相比,语音交互界面是串行的输出方式,速度较慢。因此,语音交互界面可以使用的场合一般是有系统提示引导的问答式交互,而且每一步可供选择的项目不太多或者是用户所熟悉的某一个领域。 综上,语音交互的优缺点如下: 优点:人类最习惯的交流方式;认知负荷小(不需要长期占用注意力);资源占用少(空间和照明);交互效率高(信息量大); 缺点:环境要求严(不能在噪声环境中);信息的模糊性;非结构化;短暂性;记忆负荷大 6.2 语音识别 6.2.1 语音识别回顾 语音识别是将音频数据转化成文本或其他形式的计算机可以处理的信息的技术。它的研究目的是让机器“听懂”人类的语言。 语音识别技术的研究从20世纪50年代开始。1952年,ATT Bell实验室的Davis等人研制成功世界上第一个能识别英文字母发音的实验系统Audry系统。 20世纪60年代计算机的应用推动了语音识别的发展,重要成果有提出动态规划(DP)和线性预测分析技术(LP),后者能够很好解决语音信号产生模型的问题,对语音识别产生深远影响。 20世纪70年代,语音识别领域得到突破,理论上LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别提出了矢量量化(VQ)隐马尔科夫模型(HMM);实践上实现了基于现行预测倒谱和DTW技术的特定人孤立语音识别系统。 20世纪80年代,HMM模型和人工神经元网络(ANN)在语音识别中成功应用。 进入20世纪90年代,多媒体时代的来临迫切要求语音识别系统从实验室走向应用。许多发达国家如美国、日本,以及IBM、Apple、 ATT Bell等著名公司都投入巨资为语音识别系统的进行实用化开发研究。当前,美国在非特定人大词汇表连续语音隐马尔科夫模型识别方面起主导作用;日本在大词汇表的连续语音神经网络识别、模拟人工智能进行语音后处理方面处于主导地位。 6.
文档评论(0)