计算听觉场景分析介绍.docxVIP

下载本文档

268
0
约1.08万字
约 5页
2018-04-25 发布于江西
举报
版权申诉

计算听觉场景分析介绍.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

计算听觉场景分析介绍

计算听觉场景分析介绍 ①伟 ②黄秀轩 ③邱(华南理工大学通信与电子工程系广州 510641)摘要介绍了计算听觉场景分析的研究内容、理论依据、归类线索及意义 ,并以听觉的两大类型 (数据驱动及图式驱动) 为框架较详细地阐述了计算听觉场景分析系统的主要结构及研究进展 ,指出了信息双向互流将是未来 CA SA 研究的主要模式。关键词计算听觉场景分析 , 听觉模型 , 声源分离 , 数据驱动 , 图式驱动了可喜的进展。计算听觉场景分析试图利用计算机技术通过对人类听觉心理过程及听觉生理机能的模拟 ,最终使计算机具备像人耳那样处理声音 (分离并解释) 的能力 ,这是一项新兴的边缘研究课题。迄今为止 ,绝大部分的关于计算机对声音理解的研究都是围绕着自动语音识别来展开的。然而 ,真正实用的自动语音识别系统仍然是人们的理想。现在已有愈来愈多的研究人员意识到了目前计算机语音识别系统 ( 以 HMM 统计模型为主要框架) 与人类听觉系统之间的巨大差异。这一差距激发了人们对人类听觉系统理解的兴趣 ,成为计算听觉场景分析研究的主要动因。更重要的是计算听觉场景分析的研究目标并不局限于语音识别 ,而是试图对存在于现实世界的所有声音进行分离和解释。近年来 CA SA 的研究日趋活跃。1995 年在加0引言听觉场景分析源自 Cherry 在 1953 年的发现 ,即人类听觉系统能够从复杂的混合声音中有效地选择并跟踪某一说话人的声音。Cherry 把这一现象称之为“鸡尾酒效应”。自此 ,声源分离一直是一个重要的研究课题。听觉场景分析 ( Audito ry Scene Analysis , A SA) 。这一概念 ,首先是由加拿大麦基尔大学 ( Mc Gilll U niversit y) 著名心理听觉学家 Albert Bregman在其经典专著《计算场景分析》( Audito ry Scene Analysis) ) 1 中提出的。在听觉系统中 ,听觉系统利用声音的各种特性 ( 时域、频域、空间位置等) ,通过自下而上 ( 分解) 和自上而下 ( 学习) 的双向信息交流 ,对现实世界的混合声音进行分解 ,使各成分归属于各自的物理声源。Bregman 在他的专著中对听觉问题给出了令人信服并广为接受的功能说明 ,从而被认为是听觉场景分析的开山鼻祖 ,Bregman 认为听觉信息处理的初始处理阶段是将声音按每一物理声源的属性分离成“流”或“成分”,也就是将声音按声源归类的问题。这也是听觉场景分析的基本研究内容。计算听觉场景分析就是用计算机技术将人类听觉对声音的处理过程 ( 听觉场景分析) 建模 ,使计算机具备从混合声音中分离各物理声源并作出合理解释的能力。自 1990 年 Bregman 的专著出版以来 ,许多研究人员开始尝试建立计算听觉场景分析系统———这一系统可以从一连续的声音信号中分离出与它们各自物理声源对应的声音流 ( 成分) ,并且取得拿大的蒙特利尔召开了第一届 CA SA 国际研讨会。1998 年出版的由 Ro sent hal 和 Okuno 主编的“Co m2p utatio nal Audito ry Scene Analysis”2 收录的 24 篇论文 ,就是基于 1995 年 IJ CA I2CA SA 研讨会。该书将收集的论文分为“生理与神经模型”、“结构与控制”“、表述与信号处理”及“语音与其他应用”4 个部分 ,基本反应了 CA SA 研究的方方面面。第二届 CA SA 国际会议在日本的名古屋举行 ,最近一次的 CA SA 国际研讨会于 1999 年 8 月在瑞典首都斯德哥尔摩举行。无论在有关模式识别、人工智能、听觉、模型上 ,还是在应用上的研究 ,都具有十分重要的现实意义。它标志着研究人员开始纠正片面地利用数字信号处理技术和数学模型来研究计算机听觉的偏差 ,使长期以来一直困绕着有关研究人员的技① 国家自然科学基金 ( 资助项目。② 男 ,1962 年生 ,博士 ,副教授 ;研究方向 :数字信号处理。③ 联系人。( 收稿日期 :2001202201)术难题 (例如语音识别系统在复杂的现实环境中的应用) 有了突破的可能。足独立性和连续性这两个约束。在 CA SA 处理过程中 ,还要用到声源的许多特性 ,这被称为声音归类线索 ,如基音、声源的起始/ 结束时刻等。这些线索对1CA SA 计算理论的基本依据及声音归类的各种线索CA SA 的计算理论强调 ,所有对声音的感知及某一声源