- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语普通话双音子及三音子结构系统以及相关语料库的设计
汉语普通话双音子和三音子结构系统以及相关语料库的设计
摘要
自然语音处理最感头疼的问题, 就是难以对付连续话语中复杂的语音变化. 语音学界和言语工程学界经过长期的探索发现, 双音子和三音子是比较理想的、能够较好地覆盖各崐种语音变化现象的处理单元. 所以, 在语音合成和语音识别中, 特别是在波形拼接合成方崐面已经得到广泛的应用. 但是, 在国内, 人们尚不十分熟悉它们.本文将扼要地介绍这些概崐念, 并概括描写汉语普通话的双音子和三音子结构系统及相关语料库的设计.
1.0 综述
当前, 言语的合成和识别都已进入连续话语的阶段, 而影响合成音质和识别率提高的
拦路虎就是语音的多变性问题. 因为自然话语并不是各种语音单位诸如音素或音节的简单机械的串列, 而是按照一定语音结合和变化规则构成的有机体系. 在这个体系里,各相邻语
音单元之间由于协同发音(coarticulation)作用而彼此渗透, 在空间和时间域里形成了相互套叠(telescope or overlap)的局面(Zsiga, 1994; Wood, 1991), 其中相互叠接的部分叫做音联(juncture)(许毅, 1989), 它通常都是对应于一个声学上极其易变的区域. 不同语音单元之间的音联既是它们相互连接和分界的表现, 又是体现它们随环境而变化的实体. 正是这个部分给自然言语处理带来了极大的困难. 所以, 无论是合成还是识别方面, 都迫切希望能够定量地获得这种音联的规律及相关的模式. 然而, 无论从哪个角度看, 目前尚未达到能够控制对应于这种语音变化的所有参量的水准. 在这种情况下, 基于语料库的统计研究方法被广泛采用, 语料库的价值已经获得广泛的认可. 而且, 国际上还创立了语料库建设的协调组织(COCOSDA). 那么, 就合成和识别而言, 语料库究竟怎样选取言语样本才能够全面覆盖上述音联现象呢? 我们认为, 这同合成和识别的单元选择密切相关.
长期以来, 人们在合成和识别的单元选择方面下了不少功夫. 起初, 音位或音素被认为是最合适的处理单元. 因为在任何语言里, 音位的数目总是相当有限的, 以它们作单元最为经济. 但是, 实践证明, 假如采用音位作为拼接合成的单元, 合成言语的音质低劣, 就是加上音位变体也还是不行. 一个主要的原因就在于无法含盖音位边界上那个声学上易变区域的特性. 同样, 音位也不适宜用作连续话语识别的单元. 因为在连续话语里, 音位之间相互叠接, 彼此的界限不分明, 这样的单元在信号处理上是很难定位、 很难进行自动切分的. 为了解决这个问题, 有的系统就采用较大的言语单位如音节或词作为处理单元.尽管同音位相比, 音节和词是相对稳定的语音单位, 但是, 类似于音位方面的问题在这里依然存在. 因为至少在音节或词的边界上, 仍然存在相邻音位之间的音联问题, 因而每个音节或词在语流中也是随环境而变的. 如果要用它们来生成连续话语或者以它们作为识别单 元的话, 那么, 所需的语料库就必须存储每个音节和词的所有可能的环境变体. 显然, 这在实际上是很难做到的, 更不用说怎样满足无限词汇的话语生成和大词汇量、非特定人、连续话语识别的需要了. 即使在有限词汇的小型系统中可以采用这种方法建库的话, 其中也必然包含大量不必要的存储消耗, 因为各个环境变体无法共享语料. 于是, 言语工程方面又转向某些低于词(subword)的、甚至次音位(subphoneme)的探索. 终于发现, 半音节或双音子和三音子大小的单元是能够覆盖言语中音联现象、 便于建立协同发音模型的、比较理想的语音处理单元(Lee, 1990). 引进随环境而定的音子的概念开创了一个建立低于词的模型的新方法.
所谓音子(phone), 是语音之间在声学上连贯的、粘着的部分, 它对应于声学上的音段(Keller, 1995). 它跟音位或音素不同. 音位是区别性的语音, 对应于听觉上的音段. 通常, 声学上的音段多于听觉上的音段. 例如, 汉语的音节八在听感上是由/b/和/a/两个区别性的音段构成的; 然而, 在声学上, 则除了/b/和/a/以外, 在它们之间还存在着音联, 即那个由于协同发音而产生的过渡音段, 这些在声学上就叫作音子. 它们虽然不是区别性的语音, 但却是自然言语中普遍存在的、语音处理上难于回避的语音现象. 双音子(diphone) 通常是由一个语音单元的末尾部分跟下一个单元的开头部分构成的, 它可以当 做相邻语音音段之间的过渡音来用(Klatt, 1987; Olive Spickenagel, 1976). 三音子(triphone)是另一种理想的声学音段, 它考虑了一个音位或音素左右
您可能关注的文档
- 护理专业“临床营养学教学大纲”.doc
- 报考必知,123本院校的划分.doc
- 抹灰工程施工质量验收细则.doc
- 护士的语言行为规范和护士形象.doc
- 护理学毕业论文过敏性鼻炎患者有效护理.docx
- 抽吸术治疗多囊卵巢综合征不孕临床研究.doc
- 拆迁补偿基准之养殖场拆迁补偿.doc
- 担起时代使命铸就社区卫生的梦想_演讲稿.doc
- 抽样的技术上机实验中心极限定理验证.docx
- 招商引资夏季攻坚过堂汇报会上讲话.doc
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)