- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
5.4.1语音输出语音输出涉及到机器如何生成语音的问题,在这方面的主要挑战是,如何使得语音输出系统能够实时地生成语音信号,例如,自动地把文字转化为语音。某些应用(如语音报时)采用有限的词汇表来处理这一任务,但大多数采用的是广泛的词汇表。机器输出的语音必须是可以听懂的,而且应该听起来很自然。其中可懂性是强制而自然的事情,可以增加用户的接受度。第28页,共59页,星期日,2025年,2月5日5.4.1语音输出与语音输出相关的几个重要术语是:1)语音基本频率,是语音信号中最低周期信号部分。它体现在嗓音中。2)音素,是最小的语音单位之一,用于区分语言或方言中的两个发音。它是最小的有意义的语言学单位,但并不携带内容。3)音位变体,确定了作为语音环境的函数的音素变化。4)词素,是有意义的语音学单位,在自由或受限的形式中都包含的最小且有意义的部分。5)嗓音,由声带的振动产生。嗓音强烈地依赖于说话者。6)非嗓音,由声带张开产生,这些声音相对独立于说话者。第29页,共59页,星期日,2025年,2月5日5.4.2语音合成音频技术的一个重要方面是语音合成,即将普通正文合成为语音。如图5-5所示。第30页,共59页,星期日,2025年,2月5日图5-5使用时间域声音连接的语音合成系统第31页,共59页,星期日,2025年,2月5日5.4.2语音合成第一步涉及到转录,或将文本翻译成相应的音标。大部分方法使用一个包含大量单词或仅仅是音节或音调组的词典。这样的词典创建非常复杂,可以是单独实现的或是几个人使用的普通词典,其质量可通过相互作用的用户干预而不断提高。这意味着由用户识别出转换公式的缺陷,人工地改进发音,他们的发现逐渐成为词典的一个集成部分。第二步将音素记录转换成声学的语音信号,其中连接可以发生在时域或频域。通常第一步用软件来解决,第二步则涉及信号处理器或专门的处理器。第32页,共59页,星期日,2025年,2月5日5.4.2语音合成除了副发音和韵律产生的问题外,语音识别还必须注意发音模糊问题。解决这个问题的惟一方式就是提供有关上下文的附加信息。第33页,共59页,星期日,2025年,2月5日5.4.3语音输入与识别在语音输入处理的各种应用中,需要正确回答3个问题,即:1)谁?语音输入依赖说话者的某种特性,这意味着语音输入能识别出说话者。计算机可用于识别说话者的声音指纹。2)什么?语音输入的关键是检测语音内容本身。通常输入的语音序列产生一块文本。典型的应用有语言翻译系统。3)怎么样?第三个问题有关如何研究语音采样。其典型应用如测谎仪。音频技术中难度最大、也最具应用前景的当属语音识别,其潜在的商业应用前景使之一直是音频技术研究关注的热点。语音识别和语音合成相结合,实现了媒体转换。第34页,共59页,星期日,2025年,2月5日5.4.3语音输入与识别语音识别一般是通过各种比较来完成的。利用现有技术,可以实现一个包含有大约25000词汇的依赖于讲话者的识别系统。语音识别中影响识别质量的问题主要是方言、情绪化的发音以及环境噪声等。要改善语音识别和语音生成的质量,需要弥合人类大脑与高性能计算机之间的相当大的性能差异,这仍需要一定的时间。第35页,共59页,星期日,2025年,2月5日5.4.3语音输入与识别语音识别的原理如图5-6所示,是将个人发音的特殊特征和由以前抽取的语音元素组成的句子做比较。这意味着这些特征通常被量化,用于被研究的语音序列。这—结果与现有的参考做比较,以将它定位于现有的语言单元之一。识别出的言词作为参数化的语言单元序列被存储,传输或处理。第36页,共59页,星期日,2025年,2月5日图5-6语音识别原理第37页,共59页,星期日,2025年,2月5日5.4.3语音输入与识别具体操作通常使用专门的元件或信号处理器抽取特征信息。比较和决定一般由系统的主处理器处理,但具有参考特征的词典通常位于计算机的二级存储单元。大多数具体的实现方法在如何定义特征信息时会有所不同。如图5-7所示。第38页,共59页,星期日,2025年,2月5日图5-7语音识别组成部分第39页,共59页,星期日,2025年,2月5日5.4.3语音输入与识别语音输入中的一个特殊问题是房间的声学特性,即环境噪声,此外,必须定义字边界,但这并不容易做到,因为大多数人说话并不强调一个字的开始和结束,同一个字也可以被说得有快有慢。依赖于特定人的识别系统比独立于讲话者的系统能识别更多的字,但这是以提前“训练”系统为代价的。为训练系统使之适应说话者,通常要求他读特定的语音序列。目前的语音识别系统有大约半个小时的训练时间。大多数依赖说话者的系
您可能关注的文档
- 机械工程制图教程图案填充和尺寸标注.ppt
- 工业循环水处理.ppt
- 第六章电气设备的原理与选择.ppt
- 第四章 购买行为分析.ppt
- 平均速度和瞬时速度.ppt
- 第2章建模与仿真.ppt
- 动物行为学课件动物的繁殖行为.ppt
- 第四章相平衡.ppt
- 第十二章 核酸通论.ppt
- 第一单元 氧化还原反应.ppt
- 2025年动力电池回收商业模式创新实践报告.docx
- 2025年智能穿戴设备健康监测功能市场风险分析.docx
- 2025年黑莓加工行业供应链优化与深加工市场报告.docx
- 《2025年广播行业音频内容创新商业模式及车载场景落地分析》.docx
- 2025年实体经济碳酸饮料包装创新报告.docx
- 2025-2026学年初中信息技术北师大版七年级上册 -北师大版教学设计合集.docx
- 《量子计算行业白皮书2025:2025年量子人工智能芯片设计与应用场景探索》.docx
- 《2025年适老化文娱内容创新与社区文化传播研究报告》.docx
- 《2025年宠物行为诊断分析:宠物乱吃粪便行为的行为矫正》.docx
- 2025年跨境电商独立站流量获取新趋势报告.docx
最近下载
- 2024-2025学年沪教版(2024)七年级英语上册+Unit+5词汇课件.pptx VIP
- 儿童用药风险点挖掘及管理实践题库答案-2025年华医网继续教育答案.docx VIP
- 人教版数学六年级下册全册课件(2025年4月修订).pptx
- 2026年光伏组件出口壁垒解析:技术创新在巴基斯坦市场的应用前景报告.docx
- 必威体育精装版民事起诉状范本.pdf VIP
- 欧洲规范-NF P94-078-中文版.pdf VIP
- 受激拉曼散射PPT课件.pptx VIP
- 肠促胰素在临床综合管理的应用及指导题库答案-2025年华医网继续教育答案.docx VIP
- 和兴园社区申报《老年宜居社区》自评报告.doc VIP
- 《走遍法国2》单词注释.pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)