HTK声学建模.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HTK声学建模.ppt

HTK声学建模 主要内容 对于声学建模的一些简单介绍 HTK声学建模step by step 演示? 声学模型 一个语音识别系统需要 前端处理(eg.去噪) 声学模型(wav跟音子的对应关系) 语言模型(是否组成合法的句子) 识别模块 目前主流的方法 声学模型采用HMM(Hidden Markov Model ) 输出是语音的特征向量 HTK声学建模 已有数据 语音文件(Wav) 标注到汉字级别的label文件 目标: 建立一个cross word triphone声学模型 使用的工具: HTK (HMM Tool Kit) 用于实现隐马模型的一个工具集 要训练得到的声学模型实际上就是一个HMM HMM模型要素 状态转移概率矩阵 随意设定 输出概率分布 最终的声学模型采用多维混合高斯密度函数(可逐步迭代得到) 因此有均值、方差这两个参数 初始状态概率分布 因HTK要求有一个初始状态节点,因此无需给出 相当于在状态转移概率矩阵中已给出 HMM三个基本问题 评估问题(向前/向后算法) 给定了模型和观察序列,如何计算该模型产生该观察序列的概率 求最佳状态序列(Viterbi算法) 重估问题(Baum-Welch算法) 估计模型的最佳参数 这里我们要做的实际上就是解决这个问题 Cross word triphone 建模单元(音子/phone): 汉语拼音声母,韵母 Eg: 姚鲨对决 = Y ao sh a d ui j ve 每一个phone都建立一个HMM cross word 相对于within-word(词内上下文有关)而言 是也考虑词与词之间的上下文相关性(Context Dependent)的模型 Triphone(三音子) Monophone(单音子) Y ao sh a d ui j ve 上下文仅考虑前后各一个音子 Y+ao y-ao+sh ao-sh+a sh-a+d …… 每一个triphone建立一个HMM 利用HTK进行声学模型训练 (对具体命令参数不做展开) 总流程图 数据准备(1) 1、Wav文件编码成39维特征向量 2、制作符合HTK格式的phone level 标注文本 数据准备(2) — label文件格式 HTK中匹配策略是:wav文件与label文件同名,后缀不同 HTK提供一种MLF(Master Label Files)来组织标注文件 SubDirDef格式 #!MLF!# *-E:\%声学建模\训练数据\word label“ 另一种格式 #!MLF!# “*\STN1.lab sil n i sil . “*\STN10.lab sil t a . 定义模型原型(2) 模型原型proto定义 5-3-7(5个状态,三个状态有输出,7个转移) 输出向量采用39维MFCC_0_D_A特征向量 输出概率分布:单高斯密度函数 建模单元(62个) Sil(静音silence,起初加在每句话的开头和结尾) 声母(24个) 韵母(38个,去除ueng) ueng在实际的写法中都写成weng proto文件实例 ~o VecSize 39 MFCC_0_D_A ~h proto“ BeginHMM NumStates 5 State 2 Mean 39 0.0 0.0 0.0 ... Variance 39 1.0 1.0 1.0 ... State 3 Mean 39 0.0 0.0 0.0 ... Variance 39 1.0 1.0 1.0 ... State 4 Mean 39 0.0 0.0 0.0 ... Variance 39 1.0 1.0 1.0 ... TransP 5 0.0 1.0 0.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 0.7 0.3 0.0 0.0 0.0 0.0 0.0 EndHMM Flat-start模型初始化 重新标注语料、模型迭代 利用前步得到的初始化模型进行一次粗切分,对训练语料进行重新标注(对齐) 利用得到的细标语料再次训练 重新对齐的标注文件 #!MLF!# E:/%声学建模/训练数据/MFCC/stn1.lab 0 200000 sil 200000 500000 sh 500000 800000 uei 800000 1000000 n 1000000 1200000 eng 1200000 1400000 y 1400000 1900000 vn 1900000 2300000 c 2300000 2500000 ang 2500000 3000000 l 加入sp使模型更精确 说话人在词与词之

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档