第三章 数字音频处理技术(修订2).ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字音频压缩标准 2.音乐制作技术 提取原音软件:Exact Audio Copy(EAC) MP3数字CD抓轨 把CD音轨转换成WAV格式(无失真)。 音频处理软件:Cool Edit 2000 原音伴唱消除:Effect/Amplitude/ Channel Mixer→Vocal Cut VCD(卡拉OK):左声道、右声道 人声 伴音 一、语音识别的发展历史 1952:Bell实验室研制可识别十个英文 数字的语音识别器-Audry系统。 60-80:动态规划(DP)、线性预测(LP)、 矢量量化(VQ)、隐马尔可夫模型、 人工神经元网络(ANN)。 1988:卡内基-梅隆大学研制SPHINX系统 非特定人、大词汇量、连续语音。 1997:IBM公司开发出汉语ViaVoice语音 识别系统。ViaVoice98-地方口音 二、语音识别的基本原理 四、语音识别软件 中文听写 语音识别软件 语音命令 语音合成 IBM ViaVoice 8.0中文语音识别系统 三、语音识别系统的分类 2.根据对说话人依赖程度 特定人语音识别系统:专人 非特定人语音识别系统:所有人 限定人识别系统:一组人 3.根据对说话人说话方式 孤立词语音识别系统:每词后停顿 连接词语音识别系统:连音 连续语音识别系统:连音、变音 3.6 语音识别技术 英特尔公司的可视音频语音识别软件(AVSR) 3.6 语音识别技术 * 第三章 数字音频处理技术 学习目标: 1.数字音频的常用格式 2.数字音频文件的获取与处理技术 教学方式:讲授、讨论、自学 第三章 数字音频处理技术 3.1 脉冲代码调制基本原理 3.2 数字音频压缩 3.3 数字音频的常用格式 3.4 数字音频文件的获取与处理实用技术 脉冲代码调制(PCM),是一种对模拟信号的编码。声音信号经PCM编码后,变成计算机能够处理的数字信号。 3.1 脉冲代码调制 脉冲代码调制基本原理 高频滤波 输出(数字) 输入(模拟) 低通滤波 采样 量化 码字分配 连续的模拟声音信号 声音信号的采样 离散的音频信号 顺序 声音是信息传递的重要媒体,是人与人之间进行信息交流的重要手段。因此,多媒体技术中声音信号的数字化以及为了让一定容量的存储设备能存储更多的声音信息,对声音信息的数据量进行声音数据的压缩都是非常重要的技术。在声音数据的压缩技术中,通常采用编码的方式实现,通过压缩编码减少声音信息中的冗余是实现声音信息压缩的基本方法。 3.2 数字音频压缩 只有当信源产生的信号具有冗余,才能对其进行压缩。统计分析结果表明,在语音信号中主要包括频域冗余和时域冗余。另外考虑到人的听觉机理特征,也能对语音信号实行压缩。 音频信号的数据压缩依据 1. 频域冗余度 (1)非均匀的长时功率谱密度 在相当长的时间间隔内进行统计平均,可得到长时功率谱密度函数,其功率谱呈现强烈的非平坦性。从统计的观点看,这表明没有充分利用给定的频段,或者说存在固有的冗余度。尤其当功率谱的高频能量较低,这恰好对应于时域上相邻样本间的相关性。 (2)语音特有的短时功率谱密度 在某些频率上语音信号的短时功率谱出现峰值,而在另一些频率上出现谷值。 2. 时域冗余度 (1) 样本间的相关 从语音波形的分析中可以看出,在邻近样本之间取样数据存在最大的相关性。当取样频率为8kHz时,相邻取样值间的相关系数大于0.85,甚至在相距10个样本之间,还可有0.3左右的数量级。如果取样速率提高,样本间的相关性将更强。因而根据这种较强的相关性,可以进行有效的数据压缩。 (2) 幅度的非均匀分布 统计表明,语音中的小幅度样本比大幅度样本出现的概率要高。又由于通话中必然会有间隙,因此出现了大量的低电平样本。此外,实际讲话信号功率电平也趋向于出现在编码范围的较低电平端。因此,语音信号取样值的幅度分布是非均匀的。 (3)周期之间的相关性 语音信号虽与电视信号有许多相似之处,但也存在许多不 同,其最大的区别是语音信号的直流分量并不占主要成分。因为光信号是非负的,而语音信号却可正可负。虽然语音信号需要一个电话通路提供整个300Hz~3400Hz的带宽,但在特定的瞬间,某一声音却往往只是该频带内的少数频率成分在起作用。当声音中只存在少数几个频率时,就会像某些振荡波形一样,在周期与周期之间,存在着一定的相关性,利用语音周期之间信息冗余度的编码器,比仅仅只利用邻近样本间的相关性的编码器效果要好,但要复杂得多 2. 时域冗余度

文档评论(0)

wxc6688 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档