一种基于高混合模型的说话人识别的有效评分算法.docVIP

一种基于高混合模型的说话人识别的有效评分算法.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于高斯混合模型的说话人识别的有效评分算法 摘要:这篇文章提出了一个新的算法,该算法用以降低识别一个用高斯混合说话人模型框架的识别方法的计算复杂度。应用于整个观察序列是已知的,我们举例说明了不可能的说话人模型的快速精简可以通过记录观测向量时间的序列来更新每个说话人模型的累积概率。整体的方法是集成到一个光束的有哪些信誉好的足球投注网站策略和用于减少识别说话人的时间,当需要识别的说话人语音信息是从138人的YOHO语料库中提取时,这种方式通过在标准的全有哪些信誉好的足球投注网站方法140的一个因素和标准的光束有哪些信誉好的足球投注网站方法的六倍的一个因素来实现,。 一、介绍 通过语音识别说话人的能力在最近的文献中备受关注。说话人识别的应用和认证包括银行电话,计算机安全,以及获得对因特网的安全文件。在基于GMM模型的说话人识别中,该模型被证明与现有的技术相比,能够提供优越的性能。比如说,低至0.7%的错误率已经被报道,该数据是从YOHO语料库采样的总共138个说话人的8千赫语音。然而,由于试验材料的数量和长度的增加,导致进行识别的计算成本也随之大幅增加。这篇文章通过提出的新方法用于降低说话人识别的计算复杂的问题,该方法用光束有哪些信誉好的足球投注网站修剪一新的观测序列重排来实现。 二、基于高斯混合模型的说话人识别 在高斯混合模型的说话人识别中,语音用特征化的帧同步观测向量来表示:。典型的帧速率是以10毫秒,三维特征从以每个帧瞬间为中心的重叠分析窗口提取。在识别过程中,该系统由一系列从S模型中提取的说话人的观测向量X来表示。说话人识别由说话人模型决定,该模型发现在说话人中后验概率最大化,设为 (1) 利用Bayes规则,(1)可以表示为 (2) 假设每个说话人模型同样是可能的,并指出对所有机型相同,识别任务可以概括为寻找 (3) 其中被假定为模拟多变量高斯分布的混合物, ,其中和分别代表混合物质量,均值向量和协方差矩阵第个分布。在式(3)中,观测值被认为是统计独立的,因此时间信息不进行编码的模式。此外,为了避免数值稳定性问题,式(3)使用对数似然计,在一般情况下,使用对角线协方差矩阵产生模拟观测 (4) 完整的评价(4)要求显著的计算资源,如果说话人模型的数目或者持续时间的实验材料大,那么会比较准确。 为减少计算开销的一种常见方法涉及到使用最近邻的一个近似的可能性,则式(4)变换为 (5) 其中 (6) 请注意,在混合物相关的常数是完全已知的现有算法运行时,可以预先计算。其他研究也考虑在可能性计算过程中应用波束有哪些信誉好的足球投注网站。在这里,部分和的(5)式在时间中可以用来更新修剪阈值。 (7) 其中是一组当前的状态(即未修建时)模型,在时间和是用于定义用户控制的波束宽度的常量时。在处理过程中,对数得分低于的说话人模型将被从有哪些信誉好的足球投注网站中消除。 三、算法配方 典型的语音处理系统通过校准计算来自重叠窗口部分的数据(20至30ms的顺序)来分析言论,在这期间声道特性被假定固定。帧重叠的过程导致表现出高度相关性的相邻观测结果。在说话人识别的情况下,相邻观测值之间的相关性违反原有的统计独立性假设,并且会导致光束有哪些信誉好的足球投注网站结果效率的下降。这是由于数量有限是信息是从观测向量相比所得,因为它们在说话人声学空间中有相似的位置。因此在加工过程中,许多观测前必须检查不可能说话模型,并将其修剪掉。 事实上,我们可能会考虑使用可变帧频来处理这个问题(例如,采样语音观测值往往是在快速光谱变化期间,而很少在缓慢变化光谱期间),我们指出这种做法将会丢失掉在整体决定中有用的数据。同样,我们也考虑的方法是选择的观测值是基于频谱距离准则的(例如,当抽样光谱最后的观测值和当前的观测值之间的距离超过一定的阈值时,我们可以使用)。在此,节省的速度可能会超过频谱距离计算的成本。此外,就像在可变帧速率处理策略的情况下一样可能会丢失信息。 这篇文章提出的新方法提供了一个廉价的计算方法,来提高从每个观测值中获得的信息。为了实现这一目标,我们假定整个观测序列是已知,并且考虑重新排列观测的时间序列。正是出于这样的事实,参数序列的顺序不影响式(5)中给出的最终决定,重排序列是基于最大化用于更新式(5)中的连续观测值之间是时间间隔。这里提出的观测重排有两个优点:第一,由于观测序列是重新排序的,在可变帧速率处理情况下不会丢失数据;第二,几乎没有计算开销被要求在已提出的标准下重排观测序列。人们能够想到的最大时间间隔是采样来自不同因素的观测值,它们能够被用来快速采样测试条件下的声学空间。该算法描述如下: 第一步:初始化。可以形成一个子集,该子集包含一个选自均匀跨载体间隔向量集的向量。 第二步:更新可能

您可能关注的文档

文档评论(0)

xciqshic + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档