基于内容的音频检索中特征提取方法研究-西北大学学报编辑部.DOC

下载文档

2
0
约4.73千字
约 5页
2019-03-02 发布于天津
举报
版权申诉
保障服务

基于内容的音频检索中特征提取方法研究-西北大学学报编辑部.DOC

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于内容的音频检索中特征提取方法研究-西北大学学报编辑部

PAGE 5 西北大学学报(自然科学网络版) 2004年4月，第2卷，第4期 Science Journal of Northwest University Online 　 Apr. 2004，Vol.2，No. 4 ________________________ 收稿日期：2003-2-9 审稿人：赵政文，男，西北工业大学计算机学院教授基于内容的音频检索技术邢伟利，周明全（西北大学可视化研究所，陕西西安 710069）摘要：提出了一种基于示例查询的音频检索方法，包括音频特征提取、相似音频检索及音频分类，并通过已研制的基于内容的音频检索系统进行了实现，经测试，此方法具有较高的准确性。关键字：音频检索；特征提取；音频分类中图分类号：TP391.4 文献标识码：A　文章编号：1000-274X(2003)0054-08 在当今数字化与网络化时代，图像、音频和视频等多媒体内容已成为互连网信息高速公路上所传送数据的主要部分，基于文本的检索方法已不能满足数字化多媒体信息检索的需要，基于内容的多媒体检索技术应运而生。由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外，本身仅仅是一种非语义符号表示和非结构化的二进制流，缺乏内容语义的描述和结构化的组织，因而音频检索受到极大的限制。相对于日益成熟的图像与视频检索，音频检索相对滞后。因此，基于内容的音频检索已成为多媒体检索技术的研究热点。目前一些基于文本的Web引擎，如Google，Baidu，功能已非常强大，但还缺乏比较实用的音频有哪些信誉好的足球投注网站引擎。Internet上的多媒体流非常巨大，需要一些高效的有哪些信誉好的足球投注网站引擎从浩如烟海的数据中找出需要的信息。另外，音频检索在辅助视频检索和卡拉OK检索系统以及军事、刑侦领域方面都有巨大的应用价值和广阔的研究前景。音频包括语音和非语音(Non-speech)两类信号。一直以来，音频信号的处理主要集中于语音识别、说话者识别等语音处理方面的研究，如在语音识别方面IBM的ViaVoice已趋于成熟。但是，对于基于内容的音频信息检索技术的研究还不多。只有在基于音频物理特征的检索技术方面有所突破，才可能在更高层次的基于知识辅助的音频检索方面做出更深入地研究。真正基于内容的音频检索工作是由美国Muscle Fish公司完成的，他们研究的系统可以对音频进行检索和分类，有较高的准确率。基于内容的音频技术尚有大量问题需要进一步深入研究。 1　基于内容的音频检索技术分析所谓基于内容的音频检索，是指通过音频特征分析，对不同音频数据赋予不同的语义，使具有相同语义的音频在听觉上保持相似。 1.1　音频检索的基本方法音频检索第一步是建立数据库，对音频数据进行特征提取，并通过特征对数据聚类。音频检索主要采用示例查询方式（Query by example），用户通过查询界面选择一个查询例子，并设定属性值，然后提交查询。系统对用户选择的示例提取特征，结合属性值确定查询特征矢量，并对特征矢量进行模糊聚类，然后检索引擎对特征矢量与聚类参数集匹配，按相关性排序后通过查询接口返回给用户。 1.2 音频特征提取方法特征提取是指寻找原始音频信号表达形式，提取能代表原始信号的数据。音频特征提取有两种不同的技术线路：一种是从叠加音频帧中提取特征，其原因在于音频信号是短时平稳的，所以在短时提取的特征较稳定；二是从音频片段中提取，因为任何语义都有时间延续性，在长时间刻度内提取音频特征可以更好反映音频所蕴涵的语义信息，一般是提取音频帧的统计特征作为音频片段特征。首先，对音频数据进行加窗处理形成帧，加窗大小在几到几十微秒，相邻帧之间一般有30%～50%的叠加。然后，对每一帧作离散傅立叶变换（DFT），实际上常用快速傅立叶变换（FFT），得到傅立叶系数和频域能量，其中，f s为采样频率。最后应用不同算法计算相应的帧特征，再计算帧特征的标准偏差、数学期望值和方差，把帧特征推广成片段特征。 1.2.1 短时平均能量指在一个短时音频窗口内采样点信号所聚集的平均能量。假定每个短时帧大小假定为N，为用Nyquist频率采样后的离散音频信号。对于第m个短时帧，短时平均能量可以使用下面的公式计算短时平均能量可以直接应用到静音检测（Silence detection）。 1.2.2 过零率指在一个短时帧内，离散采样信号值由正到负和由负到正变化的次数。 , 当时，；否则。过零率可用来区分语音和音乐两种不同音频信号。 1.2.3 频率中心是度量声音亮度（brightness）的指标，计算公式为 1.2.4带宽是衡量音频频域范围