基于内容的音频检索.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于内容的音频检索.doc

基于内容的音频检索 ·李国辉· 返回 ---- 对于人的感官来说,有视觉、听觉、触觉和味觉等方面的感知。在视觉方面,可以感知位置、运动、颜色、纹理、形状、符号等;在听觉方面,可以感知位置、运动、音调、音量、旋律等;另外还有触觉(机械的、热的、电的、肌肉运动方面的)和嗅觉(气味、味道等)。除了视觉、触觉和嗅觉外,人们可以从听觉中获得许多信息,如我们日常收听的电台节目、欣赏的音乐、聆听的自然声响等。有许多与音频相关的应用,如音频数据库、广播、音频编辑、监控、在线音乐等。 ----音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是60Hz~20kHz,其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。样本可用8 位或16位比特表示。 ----以前的许多研究工作涉及到语音信号的处理,如语音识别。机器容易自动识别孤立的字词,如用在专用的听写和电话应用方面,而对连续的语音识别则较困难,错误较多,但目前在这方面已经取得了突破性的进展,同时还研究了辨别说话人的技术。这些研究成果将为音频信息的检索提供很大帮助。 ----常规的信息检索(IR)研究主要是基于文本,例如我们已经非常熟悉的诸如Yahoo!和AltaVista这样的有哪些信誉好的足球投注网站引擎。经典的IR问题是利用一组关键字组成的查询来定位需要的文本文档,即定位文档中的查询关键字来发现匹配的文档。如果一个文档中包含较多的查询项,那么,它就被认为比其他包含较少查询项的文档更“相关”。于是,文档可以按照“相关”度来排序,并显示给用户,以便进一步有哪些信誉好的足球投注网站。虽然这种一般的IR过程是为文本设计的,但显然也适用于音频或其他多媒体信息的检索。但是,如果我们把数字音频当成一种不透明的位流来管理,虽然可以赋予名字、文件格式、采样率等属性,但其中没有可以确认的词或可比较的实体,因此,不能像文本那样有哪些信誉好的足球投注网站或检索其内部的内容。对于音乐和非语音声响也是这样。 ----基于人工输入的属性和描述来进行音频检索是我们首先想到的方法。该方法的主要缺点反映在以下几个方面:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。但我们同时注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行概念检索。 ----本文将从信息存取的角度介绍基于内容的音频检索概念和方法。 查询方式   ----音频是声音信号的形式。作为一种信息载体,音频可以分为三种类型: ----波形声音 对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。 ----语音 具有字词、语法等语素,是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。 ----音乐 具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音。音乐可以用乐谱来表示。 ----不同的类型将具有不同的内在内容。但从整体看,音频内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级,如下图所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。 ----在物理样本级,音频内容呈现的是流媒体形式,用户可以通过时间刻度,检索或调用音频的样本数据。如现在常见的音频录放程序接口。 ----中间层是声学特征级。声学特征是从音频数据中自动抽取的。一些听觉特征表达用户对音频的感知,可以直接用于检索;一些特征用于语音的识别或检测,支持更高层的内容表示。另外还有音频的时空结构。 ----最高层是语义级,是音频内容、音频对象的概念级描述。具体来说,在这个级别上,音频的内容是语音识别、检测、辨别的结果,音乐旋律和叙事的说明,以及音频对象和概念的描述。 ----后两层是基于内容的音频检索技术最关心的。在这两个层次上,用户可以提交概念查询或按照听觉感知来查询。 ----音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的查询是一种相似查询,它实际上是检索出与用户指定的要求非常相似的所有声音。查询中可以指定返回的声音数或相似度的大小。另外,可以强调或关闭(忽略)某些特征成分,甚至可以施加逻辑“非”(或模糊的less匹配关系)来指定检索条件,检索那些不具有或少有某种特征成分(如指定没有“尖锐”或少有“尖锐”)的声音。另外,还可以对给定的一组声音,按照声学特征进行排序,如按声音的嘈杂程度排序。 ----在查询接口上,用户可以采用以下形式提交查询: ----示例 用户选择一个声音例子表达其

文档评论(0)

shbky123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档