- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
TH-CoSS数据格式与标注规范(初稿).doc
TH-CoSS数据格式与标注规范(初稿)
清华大学计算机科学与技术系
人机交互与媒体集成研究所
2003.12
1. TH-CoSS的版本
TH-CoSS (TsingHua - Corpus of Speech Synthesis)是主要为语音合成系统的建立、测试和评估,以及语音学研究而设计的综合性大型汉语语料库。不同的数据库将以不同的序列号来标识,以适应不同领域不断发展的需求。版本序列号的命名规则如下:
TH-CoSS的序列号是大写字母和数字的组合,共六位。第一和第二位是发布年份的后两位数字,如“03”表示该序列为2003年发布的;第三位用大写字母标识该语料库的关键类别,如发音人的性别(F/M)、第四位为语料收集方式(R/B/D)(R表示朗读,B表示广播,D表示对话)等;第五位为该类别发音人的序号(0-9),如“03FR0X”中第五位表示第零号女发音人;第六位表示该采用发音人的语料库序号(0-9),如“03FR00”表示2003年发布的第零号女发音人录制的第零号朗读语料库。
本次(2003年12月)发布的两个语料库的版本序列号是TH-CoSS 03MR00和TH-CoSS 03FR00。03MR00和03FR00都是为语音合成系统的建立、测试和评估,以及语音学研究而设计的综合性大型汉语语料库,前者为男声朗读语料库后者为女声朗读语料库。
2.TH-CoSS的目录结构
语音和相关数据在CDROM上是按图一的层级结构组织的。
其中,doc目录下有Technical Report、此文件和标注符号定义文ch.dtd。
doc/prompts/*/目录下为各部分文本
data目录下,每一个最底层目录内均为该部分的语音和标注文件
/-main
|-test /-F_r tone
|-syllable|-Neutralized
/-03FR00| \-Retroflexed
| | /-Question
| |-intonation|-Exclamation
/-data|
| | /-main
| | |-test /-F_r tone
| | |-syllable|-Neutralized
| \-03MR00| \-Retroflexed
| | /-Question
| |-intonation|-Exclamation
TH-CoSS|
|
\doc| /-03FR00
\-prompts|
\-03MR00
图一 目录结构
3. Data部分数据文件类型与标注规范
在data部分,有两种类型的数据文件,扩展名分别为wav和lab。
每一个语音文件.wav对应一个标注文件.lab。.lab遵守xml1.0规范的文件格式,其符号在doc目录下ch.dtd中定义。
标注数据文件记录句子中每个音节的汉字、拼音、IPA音标和始末位置等信息,同时表明韵律词和韵律短语的层级结构。标注文件采用XML格式进行说明,便于浏览和扩展。其基本标记定义如下:
?xml version=1.0 encoding=gb2312?
!ELEMENT utterance (sil*,sentence)
!--根元素,韵律结构的最大单元--
!ATTLIST utterance total_sample CDATA #REQUIRED
!--该文件对应语音文件的采样点数--
!ELEMENT sil (#PCDATA)
!--静音段--
!ATTLIST sil end_sample ID #REQUIRED
!--该段的末尾采样点序号--
!ELEMENT sentence (prosodic_phrase+)
!--句子--
!ELEMENT prosodic_phrase (prosodic_word+
文档评论(0)