计算听觉场景分析介绍.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算听觉场景分析介绍

计算听觉场景分析介绍 ①伟 ②黄秀轩 ③邱(华南理工大学通信与电子工程系 广州 510641)摘要介绍了计算听觉场景分析的研究内容 、理论依据 、归类线索及意义 ,并以听觉的两大类型 (数据驱动及图式驱动) 为框架较详细地阐述了计算听觉场景分析系统的主要结 构及研究进展 ,指出了信息双向互流将是未来 CA SA 研究的主要模式 。关键词计算听觉场景分析 , 听觉模型 , 声源分离 , 数据驱动 , 图式驱动了可喜的进展 。计算听觉场景分析试图利用计算机技术通过对 人类听觉心理过程及听觉生理机能的模拟 ,最终使 计算机具备像人耳那样处理声音 (分离并解释) 的能 力 ,这是一项新兴的边缘研究课题 。迄今为止 ,绝大 部分的关于计算机对声音理解的研究都是围绕着自 动语音识别来展开的 。然而 ,真正实用的自动语音 识别系统仍然是人们的理想 。现在已有愈来愈多的 研究人 员 意 识 到 了 目 前 计 算 机 语 音 识 别 系 统 ( 以 HMM 统计模型为主要框架) 与人类听觉系统之间 的巨大差异 。这一差距激发了人们对人类听觉系统 理解的兴趣 ,成为计算听觉场景分析研究的主要动 因 。更重要的是计算听觉场景分析的研究目标并不 局限于语音识别 ,而是试图对存在于现实世界的所 有声音进行分离和解释 。近年来 CA SA 的研究日趋活跃 。1995 年在加0引言听觉场景分析源自 Cherry 在 1953 年的发现 ,即人类听觉系统能够从复杂的混合声音中有效地选 择并跟踪某一说话人的声音 。Cherry 把这一现象称之为“鸡尾酒效应”。自此 ,声源分离一直是一个 重要的研究课题 。听 觉 场 景 分 析 ( Audito ry Scene Analysis , A SA) 。这一概念 ,首先是由加拿大麦基尔大学 ( Mc Gilll U niversit y) 著名心理听觉学家 Albert Bregman在其 经 典 专 著《计 算 场 景 分 析 》( Audito ry Scene Analysis) ) 1 中提出的 。在听觉系统中 ,听觉系统利 用声音的各种特性 ( 时域 、频域 、空间位置等) ,通过 自下而上 ( 分解) 和自上而下 ( 学习) 的双向信息交 流 ,对现实世界的混合声音进行分解 ,使各成分归属于各自的物理声源 。Bregman 在他的专著中对听觉 问题给出了令人信服并广为接受的功能说明 ,从而 被认为是听觉场景分析的开山鼻祖 ,Bregman 认为 听觉信息处理的初始处理阶段是将声音按每一物理 声源的属性分离成“流”或“成分”,也就是将声音按 声源归类的问题 。这也是听觉场景分析的基本研究内容 。 计算听觉场景分析就是用计算机技术将人类听觉对声音的处理过程 ( 听觉场景分析) 建模 ,使计算 机具备从混合声音中分离各物理声源并作出合理解 释的能力 。自 1990 年 Bregman 的专著出版以来 ,许多研究人员开始尝试建立计算听觉场景分析系统———这一系统可以从一连续的声音信号中分离出与 它们各自物理声源对应的声音流 ( 成分) ,并且取得拿大的蒙特利尔召开了第一届 CA SA 国际研讨会 。1998 年出版的由 Ro sent hal 和 Okuno 主编的“Co m2p utatio nal Audito ry Scene Analysis”2 收录的 24 篇 论文 ,就是基于 1995 年 IJ CA I2CA SA 研讨会 。该书 将收集的论文分为“生理与神经模型”、“结构与控 制”“、表述与信号处理”及“语音与其他应用”4 个部分 ,基 本 反 应 了 CA SA 研 究 的 方 方 面 面 。第 二 届 CA SA 国际会议在日本的名古屋举行 ,最近一次的 CA SA 国际研讨会于 1999 年 8 月在瑞典首都斯德 哥尔摩举行 。无论在有关模式识别 、人工智能 、听 觉 、模型上 ,还是在应用上的研究 ,都具有十分重要的现实意义 。它标志着研究人员开始纠正片面地利 用数字信号处理技术和数学模型来研究计算机听觉 的偏差 ,使长期以来一直困绕着有关研究人员的技① 国家自然科学基金 ( 资助项目 。② 男 ,1962 年生 ,博士 ,副教授 ;研究方向 :数字信号处理 。③ 联系人 。( 收稿日期 :2001202201)术难题 (例如语音识别系统在复杂的现实环境中的应用) 有了突破的可能 。足独立性和连续性这两个约束 。在 CA SA 处理过程中 ,还要用到声源的许多特性 ,这被称为声音归类线索 ,如基音 、声源的起始/ 结束时刻等 。这些线索对1CA SA 计算理论的基本依据及声音归类的各种线索CA SA 的计算理论强调 ,所有对声音的感知及某一声源

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档