- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
西班牙语TTS质量自动评估数据集
AlejandroSosaWelford,LeonardoPepino
IngenieríadeSonido,UniversidadNacionaldeTresdeFebrero,Argentina
CognitiveNeuroscienceCenter,UniversidaddeSanAndrés,Argentina
InstitutodeInvestigacionenCienciasdelaComputación(ICC),CONICET-UBA,Argentina
DepartamentodeComputación,UniversidaddeBuenosAires,Argentina
Abstract准确模拟这一指标的自动化算法。电信领域的传
alejandrososawelford@,lpepino@dc.uba.ar,
统质量评估系统,如PESQ[3]和POLQA[4],需要
本研究致力于开发一个用于西班牙语文本到语音
同时有一个受损信号和一个高质量参考进行比较。
(TTS)系统自动评估的数据库,旨在提高自然度
然而,在处理生成音频时,这种方法是不可行的。
预测模型的准确性。该数据集包含来自52种不同
还应该注意到,这些模型侧重于传输信道引起的
TTS系统和人类声音的4,326个音频样本,据我
失真,并未设计用于评估语音自然度。
们所知,这是西班牙语中的首个此类数据集。为
本为了克服这些限制,出现了用于预测语音
了标记这些音频,基于ITU‐TRec.P.807标准设
译质量的非侵入性方法。在最值得注意的方法中,
计了一个主观测试,并由92名参与者完成。此外,
中NISQA[5]通过在一个使用POLQA评估的英语语
通过训练自动自然度预测系统验证了收集的数据
1音样本数据集上训练CNN-LSTM网络显示出有
v集的实用性。我们探索了两种方法:微调一个最初
5为英语训练的现有模型,以及在冻结的自监督语希望的结果。另一种方法NORESQA-MOS[6]旨
0在预测相对于不匹配参考音频样本的一般主观质
8音模型之上训练小型下游网络。我们的模型在一
1量分数。所提出的系统是基于评估信号与不匹配
0.个五点MOS量表上实现了0.8的平均绝对误差。参考之间的比较,以无监督的方式进行训练。两项
7进一步分析证明了开发数据集的质量和多样性及
0其对推进西班牙语TTS研究的潜力。研究都报告了它们的预测指标与人类评价之间存
5在高度相关性,并声称语言无关性。
2IndexTerms:文本转语音,西班牙语,自动
文档评论(0)