基于STFT的特殊词汇的研究.docVIP

下载本文档

2
0
约8.13千字
约 12页
2018-04-14 发布于河南
举报
版权申诉

基于STFT的特殊词汇的研究.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于STFT的特殊词汇的研究

学科分类号（二级） 5202040 本科学生毕业论文（设计）题目：基于STFT的特殊词汇的研究姓名：学号：院　系　　　　　专业：网络工程指导教师（职称/学历） 2012年　9　月　22　日大学教务处制基于STFT的特殊词汇识别的研究摘要：语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科，与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。本文介绍了语音信号的基础知识，对语音信号“shop”进行了短时分析，并在MATLAB 平台上，对其进行仿真。短时傅里叶变换（STFT，short-time Fourier transform是数字信号处理领域一种很重要的算法。 1 绪论 1.1语音识别的背景语音识别(speech Recognition)于1952年由贝尔研究所davis等人首先应用于试验系统的开发，1960年Denes等人成功制作出第一个计算机语音识别系统。而在70年代开始，大量的语音识别研究应用于各个领域，在敏感词孤立词方面取得较大进展，而进入八九十年代之后语音识别的研究思路发生变化，由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM）的技术思路MATLAB软件介绍 2.1 MATLAB概述 MATLAB是矩阵实验室（Maxtrix Laboratory）的缩写，是以线性代数软件包和特征值计算的子程序为基础发展起来的，用于科学计算和数据可视化的开放型高级编程语言。其优点主要有：高效的数值计算及符号计算功能、图形处理的完整性及可视化、功能丰富的工具箱等。MATLAB为一款不断扩展的成熟的软件。 2.2 MATLAB功能介绍 MATLAB的基本数据为矩阵，指令形式与日常工程中的形式十分相似，因为解决问题的能力要比C等语言完成工作要简便。其功能主要有：数值分析、动态系统的建模和仿真、矩阵计算等，摆脱了传统的程序设计语言的模式，代表了计算机的先进水平。在MATLAB 2011a中，新增81种产品更新和缺陷修复程序。 3 语音信号产生、感知及模型 3.1语音信号的产生人的发音器主要有气管、肺、喉、咽鼻以及口。语音的产生是气流由肺部呼出，在喉以及口腔、嘴唇的各种作用下而发出的。语音发出的能量来源于肺部呼出的稳定气流。声带每闭合一次的时间即为基音周期，其倒数为基音频率。基音频率取决于个人的声带大小、厚薄等，范围大致在64-450HZ之间。 3.2语音信号模型语音有三种生成系统，声带以下为激励系统，声带到嘴唇是声道系统，嘴唇之外为辐射系统。激励模型分为浊音和清音，间歇的脉冲波为浊音的频谱图，斜三角波形为清音的频谱图，其频谱图形似低通滤波器，其Z 变换的全极模型是 G（z）＝1/（1-g1z-1）（1-g2z-1）U（z）＝G（z）E（z）＝AV/（1-z-1）·1/（1-g1z-1）（1-g2z-1）shop”。在信号采集时，先调用wavrecord函数，完成信号采集之后，保存其为wav格式，然后进行信号运算。在信息采集时，用到的硬件为配有麦克风和声卡的PC机。 5.1预处理通过麦克风采集来的音频文件以标准.wav 格式存储。虽然是在相对安静无其他干扰的室内环境中采集声音信号，但在这种非专业录音环境以及普通麦克风采集来的数据中仍有大量噪音。这些噪音会对特征提取工作产生重大影响甚至干扰提取工作，所以采集来的信号应该先滤波去噪。 5.2信号分析语音信号一般是一种非平稳的随机过程，具有时变特性。但其在短时间内是平稳信号，成为语音的“短时平稳性”。本文基于短时傅里叶分析，故对信号采用分段分析，每段称为一“帧”，语音在10-30ms之内相对平稳，所以帧长取值也是10-30ms。短时傅里叶变换的分析流程图如下：对“shop”进行分帧加窗分析（即STFT），其三维图如下：图1 STFT三维图 Figure 1 STFT three-dimensional figure 5.3短时能量及短时平均幅度分析语音的短时能量能够直观的反映出语音信号的振幅随时间变化的规律。用E表示语音信号第i帧的短时能量，其表达式为：相应的，短时平均幅度也是反映信号幅值变化的函数（用M表示），其定义为：这两种函数主要用途是区分浊音和清音的音段分界。在MATLAB环境运行下，“shop”语音的短时能量以及短时平均幅度分别如下图：图2 短时能量 Figure 2 short