- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字音频压缩标准 2.音乐制作技术 提取原音软件:Exact Audio Copy(EAC) MP3数字CD抓轨 把CD音轨转换成WAV格式(无失真)。 音频处理软件:Cool Edit 2000 原音伴唱消除:Effect/Amplitude/ Channel Mixer→Vocal Cut VCD(卡拉OK):左声道、右声道 人声 伴音 一、语音识别的发展历史 1952:Bell实验室研制可识别十个英文 数字的语音识别器-Audry系统。 60-80:动态规划(DP)、线性预测(LP)、 矢量量化(VQ)、隐马尔可夫模型、 人工神经元网络(ANN)。 1988:卡内基-梅隆大学研制SPHINX系统 非特定人、大词汇量、连续语音。 1997:IBM公司开发出汉语ViaVoice语音 识别系统。ViaVoice98-地方口音 二、语音识别的基本原理 四、语音识别软件 中文听写 语音识别软件 语音命令 语音合成 IBM ViaVoice 8.0中文语音识别系统 三、语音识别系统的分类 2.根据对说话人依赖程度 特定人语音识别系统:专人 非特定人语音识别系统:所有人 限定人识别系统:一组人 3.根据对说话人说话方式 孤立词语音识别系统:每词后停顿 连接词语音识别系统:连音 连续语音识别系统:连音、变音 3.6 语音识别技术 英特尔公司的可视音频语音识别软件(AVSR) 3.6 语音识别技术 * 第三章 数字音频处理技术 学习目标: 1.数字音频的常用格式 2.数字音频文件的获取与处理技术 教学方式:讲授、讨论、自学 第三章 数字音频处理技术 3.1 脉冲代码调制基本原理 3.2 数字音频压缩 3.3 数字音频的常用格式 3.4 数字音频文件的获取与处理实用技术 脉冲代码调制(PCM),是一种对模拟信号的编码。声音信号经PCM编码后,变成计算机能够处理的数字信号。 3.1 脉冲代码调制 脉冲代码调制基本原理 高频滤波 输出(数字) 输入(模拟) 低通滤波 采样 量化 码字分配 连续的模拟声音信号 声音信号的采样 离散的音频信号 顺序 声音是信息传递的重要媒体,是人与人之间进行信息交流的重要手段。因此,多媒体技术中声音信号的数字化以及为了让一定容量的存储设备能存储更多的声音信息,对声音信息的数据量进行声音数据的压缩都是非常重要的技术。在声音数据的压缩技术中,通常采用编码的方式实现,通过压缩编码减少声音信息中的冗余是实现声音信息压缩的基本方法。 3.2 数字音频压缩 只有当信源产生的信号具有冗余,才能对其进行压缩。统计分析结果表明,在语音信号中主要包括频域冗余和时域冗余。另外考虑到人的听觉机理特征,也能对语音信号实行压缩。 音频信号的数据压缩依据 1. 频域冗余度 (1)非均匀的长时功率谱密度 在相当长的时间间隔内进行统计平均,可得到长时功率谱密度函数,其功率谱呈现强烈的非平坦性。从统计的观点看,这表明没有充分利用给定的频段,或者说存在固有的冗余度。尤其当功率谱的高频能量较低,这恰好对应于时域上相邻样本间的相关性。 (2)语音特有的短时功率谱密度 在某些频率上语音信号的短时功率谱出现峰值,而在另一些频率上出现谷值。 2. 时域冗余度 (1) 样本间的相关 从语音波形的分析中可以看出,在邻近样本之间取样数据存在最大的相关性。当取样频率为8kHz时,相邻取样值间的相关系数大于0.85,甚至在相距10个样本之间,还可有0.3左右的数量级。如果取样速率提高,样本间的相关性将更强。因而根据这种较强的相关性,可以进行有效的数据压缩。 (2) 幅度的非均匀分布 统计表明,语音中的小幅度样本比大幅度样本出现的概率要高。又由于通话中必然会有间隙,因此出现了大量的低电平样本。此外,实际讲话信号功率电平也趋向于出现在编码范围的较低电平端。因此,语音信号取样值的幅度分布是非均匀的。 (3)周期之间的相关性 语音信号虽与电视信号有许多相似之处,但也存在许多不 同,其最大的区别是语音信号的直流分量并不占主要成分。因为光信号是非负的,而语音信号却可正可负。虽然语音信号需要一个电话通路提供整个300Hz~3400Hz的带宽,但在特定的瞬间,某一声音却往往只是该频带内的少数频率成分在起作用。当声音中只存在少数几个频率时,就会像某些振荡波形一样,在周期与周期之间,存在着一定的相关性,利用语音周期之间信息冗余度的编码器,比仅仅只利用邻近样本间的相关性的编码器效果要好,但要复杂得多 2. 时域冗余度
您可能关注的文档
- 程序设计方法学—UML专讲.ppt
- 《有机化学》课程说课.ppt
- S.Q.R.C.簡介.ppt
- 平安人寿2010年必威体育精装版行销企划案.ppt
- 第一章:广告概述(之一).ppt
- 第一节_疆域(鲁教版)(第一课时).ppt
- 安徽大学化工导论课件_煤与天然气.ppt
- 逆向反汇编基础1.ppt
- Avid ISIS概述.ppt
- [精要]组合图形面积的计算复习.ppt
- 携程产品营销经理岗面试题库参考答案和答题要点.docx
- 携程产品经理岗面试题库参考答案和答题要点.docx
- 携程供应链管理专员岗面试题库参考答案和答题要点.docx
- 携程交易数据分析师岗面试题库参考答案和答题要点.docx
- 携程公共关系专员岗面试题库参考答案和答题要点.docx
- 携程内部培训专员岗面试题库参考答案和答题要点.docx
- 福建省福州市2023-2024学年高二上学期期末测试英语试卷(含答案).pdf
- 携程人力资源专员岗面试题库参考答案和答题要点.docx
- 福建省三明市2023-2024学年高二上学期期末测试英语试卷(含答案).docx
- 福建省三明市2023-2024学年高二上学期期末测试英语试卷(含答案).pdf
最近下载
- 2020年矛盾纠纷排查调处工作总结.docx VIP
- 综合实践 ——《淘气的一天》 获奖课例(含单元概览 核心素养)学历案-2024一年级上册数学北师大版(2024).pdf
- 九部委文件《标准施工招标资格预审文件》和《标准施工招标文件》概述.pptx VIP
- 苏教版五年级上册数学第五单元《整理与练习》教学课件.pptx
- 青少年自杀、自伤行为预防和干预(华南师范大学心理学院).ppt
- (NEW)武汉大学《691普通物理(含力学、热学、光学和电磁学)》历年考研真题汇编.pdf
- 教研教培课件:《核心素养导向的考试评价研究-以“统计与概率”领域为例》.pptx
- 一种电解铝阳极碳素专用纳米高温防氧化涂料及其制备方法.pdf VIP
- QC-T1037-2016道路车辆用高压电缆汽车行业标准.pdf VIP
- 【人教版】小学数学四年级上册期末试卷.pdf VIP
文档评论(0)