- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
第25卷 计算机应用 Vo1.25
2005年 l2月 ComputerApplications Dec.2005
文章编号:1001—9081(2005)12Z一0387—04
DirectShow技术在音频格式转换及音视频分离方面的应用
徐 燃,潘接林
(中国科学院 声学研究所,北京 100080)
(rxu@hee1.ioa.ac.cn)
摘 要:目前语音识别系统的输入都是线性PCM格式的音频文件,然而在实际应用中,需要识别
各种格式音频文件以及视频流中的音频,在开始识别前,需要进行音频格式转换并从视频流中进行音
频提取。因此,音频格式的转换和从视频中分离出音频信号已成为语音识别系统一种必需的预处理
过程。文中介绍了一种将Microsoft的DirectShow技术应用于Windows平台的多种压缩音频格式转换
为WindowsPCMWAV格式以及从多媒体视频中分离音频信号的方法,并分析 了常见音频压缩编码
格式经转换后对语音iY,~q系统性能的影响。这对于语音识别技术在实际中的应用有着重要的意义。
关键词:DirectShow;语音识别;音频格式转换;音视频分离
中图分类号:TP37 文献标识码:A
DirectShow应用程序时,需要了解 COM客户端编程的一些基
0 引言
本概念。大多数情况下,DimctShow提供了满足大多数应用
随着互联网和多媒体技术的发展,声音文件的载体也越 需求的COM组件,用户不需要 自己编写组件。但如果应用程
来越多样化 ,如 MPEG标准中的音视频格式 (MP3、MPEG-2 序需要用到特定功能的组件时,也可以自己编写组件功能并
等)、RealMedia的流媒体格式(RA、RM、RMVB等)、微软的 封装为COM在本机进行注册使用。
Windows流媒体格式(ASF、WMA、WMV等)以及新近出现的 1.2 DirectShow编程框架
OGG等格式。这些格式以高压缩比实现对原有音视频信号 1.2.1 Filter和 FilterGraph
的高质量编码,从而大大降低媒体文件的大小,方便存储和传 DirectShow的组成模块是一种称之为Filter的COM组
输。 件,每一个 Filter完成多媒体数据流上的某些功能。例如,
语音识别技术的发展扩大了它的应用范围,对以非 PCM DirectShow的Filter可以具有以下功能:
(脉冲编码调制)格式编码的语音信号也提出了识别要求。 · 读写文件;
在进行语音识别之前,首先要从语音信号中提取特征,而目前 · 从视频和音频捕捉设备获取音视频流;
特征提取都是在线性PCM基础上进行的,因此要识别其他格 · 对各种媒体流格式进行解码,如MPEG.1视频流、AVI
式的文件,就必须先将这些文件转换为线性PCM的编码格 流等;
式。虽然 目前有多种软件可以实现格式之间的转换,但因其 · 将数据传送给图形卡和声卡等。
缺乏通用性、功能和支持格式有限、转换速度慢以及难以集成 Filter接收输入并产生输 出,如果一个 Filter对MPEG.1
到语音识别系统中等缺点,很难直接应用于识别系统。 视频流进行解码 ,那么输入为MPEG的码流,而输出则为一系
Microsoft提供的DirectShow技术简化了媒体播放、格式
文档评论(0)