音频特征提取、分析与音频音乐检索.pptVIP

音频特征提取、分析与音频音乐检索.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
音频特征提取、分析与音频音乐检索

音频特征提取、分析与检索 庄越挺 吴飞 浙江大学计算机学院 Wufei@cs.zju.edu.cn 音频分析中值得注意问题 在音频处理中,对连续的音频信号,并没有定义“关键音频帧”。 音频信号本质上是非稳定的,也就是说,相隔很短时间(不超过10毫秒),音频特征就会发生明显剧烈变化。 如果按照视频那样,在特征发生剧烈变化时将音频数据流分开,提取关键帧,那么每隔10毫秒长度的音频流都将成为“关键音频帧”,整个音频信号中就只有很少的“非关键音频帧”存在了,使“关键音频帧”失去意义。 音频分析中值得注意问题 在音频处理中,对每个采样点均进行处理,又是不现实的。由于音频在很短的时间内还是保持稳定的,如一个音素总会持续很短时间,所以把若干个采样点合在一起处理,这就有了语音处理中常用的“窗口”的概念。 一个窗口约几百个采样点,大概持续几个毫秒时间。事实上,在音频处理中,也就是使用“窗口”对离散音频采样点进行处理,而不是“关键音频帧”。这样处理的好处是,既符合音频本质上是非稳定信号的特性,又满足音频在短时间内平稳的特性。 音频分析中值得注意问题 由于没有了“关键音频帧”,所以提取出来的特征是很大的(每个窗口需要提取若干个特征,而几秒钟长的音频例子会有上千个窗口,最后将会提取出上万个特征数据点)。这样,判断两个音频例子是否相似时,不可能逐个比较上万个数据点之间距离,而是采取两种相似匹配办法: 样例学习去模拟时序信号的产生 样列学习去聚类降维时序学号 音频分析中值得注意问题 将特征数据点看成连续时序数据,使用一个参数模型去模拟这些时序数据,也就是为了判断这些时序数据是否相似,就为它们建立一个模型。所以,在音频相似度比较中,可以采用基于统计原理的时序数据模型,如隐马尔可夫链;也可以使用支持向量机这样的分类识别学习机器。使用参数模型,就可以借助贝叶斯概率,用训练中得到的先验概率去计算后验概率,根据后验概率的大小,将每个分隔出来的音频例子归属到某一类; 对上万个特征数据进行压缩表示,即聚类分析。 隐马尔可夫链和支持向量机计算的是两个音频数据在时间序列上的相似度,而在聚类质心一般计算几何意义上相似性 音频分析中值得注意问题 音频是多媒体中的一种重要媒体。人耳能够听见的音频频率范围是60Hz~20kHz,其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响可以分布60Hz~20kHz任何区域。人耳听到的音频是连续模拟信号,而计算机只能处理数字化的信息,所以模拟连续音频信号要经过离散化即抽样后变成计算机处理的采样离散点。要说明的是,音频信号数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号(即奈魁斯特采样频率)。 为什么要频域分析 音频短时帧MFCC系数 音频压缩域特征 音频例子识别(相似度匹配)模型 Retrieval by Humming(音乐哼唱检索) Retrieval by Humming(音乐哼唱检索) 将一段旋律转化为一系列相对音调转移序列的过程称为音调跟踪。 对旋律中的任意一个音符,考虑以下三种状态:该音符比前一音符高(U)、该音符比前一音符低(D)和该音符与前一音符相等(S)。按这种规则,任意一段旋律可转化为一个包含字母U、D、S的字符序列。例如,贝多芬第五交响乐序幕可被表示成 - S S D U S S D(第一个音符被忽略)。 把用U、D和S表示原始音频信号,叫做音频的三步轮廓表示。 Retrieval by Humming(音乐哼唱检索) 音乐和歌曲须预先转化为由U、D和S三个字符组成的字符串表示,装入音频特征库。把检索请求(这个请求或者是音乐例子,或者是哼出来的曲调)表示成三步轮廓形式后,就可对音频特征库进行检索了。 由于检索请求和特征数据库中的音乐与歌曲都转化成了U、D和S字母组成的字符串,对音频特征数据库检索就简化为字符串的匹配问题。 音频压缩域特征 音频压缩域特征 原始连续音频流 音频分割 特征提取/ 特征表达 分类模型空间 音频数据库索引 用户提交的 音频例子 特征提取/ 特征表达 投影到分类模 型空间 相关反馈 最佳检索结果 音频例子 音频 检索 流程 视频 音频 关键帧 视频采样帧 音频采样点 最小处理单元 最小信号单元 短时帧 最小物理单元 视频镜头 音频例子 本质 时空连续 非平稳信号 总结:音频与视频的区别 音频分析中值得注意问题 音频分析中值得注意问题 音频分析中值得注意问题 音频分析中值得注意问题 音频特征提取 时域特征:短时平均能量、线性预测系数、过零率以及衍生特征 频域特征:Mel系数、LPC倒频谱系数、熵特征 时频特征:小波系数 按照处理空间区分 音频特征提取 (续) 按照处理长度区分:音频例子特征Vs 短时帧特征 考虑语义持续的原因 (提取

文档评论(0)

zhuwenmeijiale + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档