多媒体图像处理_声音讲义.ppt

下载文档 降价啦

5
0
约4.54千字
约 71页
2017-04-28 发布于湖北
举报
版权申诉
保障服务

多媒体图像处理_声音讲义.ppt

1、本文档共71页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

音频处理技术Audio Processing;二音频处理技术;2.1音频信号及其概念;2.1 声音与听觉;音频信号的形式：语音与非语音;模拟音频信号的物理特性;与声音有关的几个术语（主观心理量）;声音信号的三个重要参数: 频率（音调）带宽（音色）振动幅度（音强）。声音强弱体现在振幅大小，其音调高低体现在占主导地位的基本频率，声音的浑厚、饱满程度取决于带宽，即叠加在基频上的各种不同频率信号。; 基频与音调;基频的高次谐波分量，也称为泛音。音色是由混入基音的泛音的多少（带宽）所决定的，高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值和相位偏移，由此产生各种音色效果。幅度与音强人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3分贝的音强变化。;用音量来描述音强，在处理音频信号时，一般用动态范围来定义，以分贝（dB=20log）为单位。动态范围＝20×log(信号的最大强度/信号的最小强度)(dB) 动态范围越大，信号强度的相对变化范围越大，音响效果越好。; 音频频率划分：;声音质量的评价;音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好。 300Hz～3.4kHz, 电话信号范围 50Hz～7kHz，AM广播信号范围 20Hz～15kHz，FM广播信号范围 20Hz～20kHz，高保真声音(high-fidelity audio)的频率范围，带宽约20kHz;音频信号是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波。它不仅在时间上是连续的，而且在幅度上也是连续的。这个模拟信号曲线无论多复杂，在任一时刻都可分解成一系列正弦波的线性叠加。;011010111100; 声音数字化需要解决两个问题：;2.2音频的数字化; 采样频率; 量化精度;2.2音频的数字化;如果不压缩，音频采样的数据量可由下式推算：数据量=（采样频率×每个采样位数×声道数）（kb/s）例如，一秒钟CD高保真立体声的数据量为：（44.1kHz×16位×2声道） = 1411.2 kb/s = 1411200/8 字节 = 176400字节 = 172.26 KB;量化精度的信噪比(signal-to-noise ratio, SNR )表示方法：;2.2音频的数字化;2.2音频压缩编码与标准;2.2 语音编码;2.2.1 语音编码概要;有损编码中的三种语音编译码器波形编译码器（waveform codec）：根据人耳听觉特性进行采样量化，达到压缩数据的目的。如A律、μ律非均匀量化，将量化误差留给出现概率小的采样值。适用于高质量音频、音乐信号。声音质量高，但数据率也很高。音源（参数）编译码器（source codec）：将音频信号看成某种模型，利用特征提取方法抽取必要的模型参数和激励信号的信息，对这些信息进行编码。压缩率很大，但计算量大，保真度不高，适合于语音编码。混合编译码器（hybrid codec）：数据率和音质介于上述两者之间。 ;普通编译码器音质与数据率 ;2.2.2 波形编译码器 ;PCM;均匀量化与非均匀量化：均匀量化就是采用相同的“等分尺”来度量采样得到的幅度；;采用相同的量化间隔，幅度范围 N=2B (B为量化位数) 均匀量化脉冲编码调制的不足：为满足听觉上的效果，要使用较多的量化位数，因而数据量大,需要较多的存储空间。;非均匀量化PCM;均匀量化无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。为了适应大幅度输入信号，同时满足精度要求，就需要增加样本的位数。但是，对话音信号来说，大信号出现的机会并不多，增加的样本位数就没有充分利用。为了克服这个不足，出现了非均匀量化的方法，也叫做非线性量化。非线性量化的基本思想：对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。 ;例如，典型的窄带话音带宽限制在4kHz,采样频率是8kHz。如果要获得高一点的音质，样本精度要用12 位，其数据率为96kb/s；若用非线性量化的对数量化器（logarithmic quantizer）, 它产生的样本精度为8位，它的数据率为64kb/s时，重构的话音信号几乎与原始的话音信号没有什么差别。这些波形编译码器是在时域里实现的，在时域里的编译码方法称为时域法（time domain approach）。;m律(m -law)、A律（A-law）压扩（companding） m律压扩主要用于北美和日本地区数字电话通信，A律主要用于欧洲和中国地区；均为对数或近似对数非线性量化；对于采样频率为8KHz, 样本精度为13位、14位或者16位的输入信