唇读识别中的基本口型分类BasicMouthShapeClassificationfor.PDF

下载文档 降价啦

11
0
约1.81万字
约 7页
2017-08-12 发布于天津
举报
版权申诉
保障服务

唇读识别中的基本口型分类BasicMouthShapeClassificationfor.PDF

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

唇读识别中的基本口型分类BasicMouthShapeClassificationfor

唇读识别中的基本口型分类∗ Basic Mouth Shape Classification for Speechreading 柴秀娟姚鸿勋高文王瑞（哈尔滨工业大学计算机科学与工程系哈尔滨 150001 ） Abstract: This paper has put forward a concept of mouth-shape basic unit, and described an approach of obtaining basic units by mouth-shape images classifying and clustering. The basic units are the gist of breakaway different states during continuous speech recognition or sequence images speechreading, which can definitely measure off statuses for mouth shape changing in sequence images. The method based on mouth-shape basic unit, compared with the approach based on feature vector directly, can rather reduce the number of state space branch, shrink searching space and expedite convergence rate. This paper introduces the preprocessing of mouth shape classification, the approach of real-time lip movement detection and classification, and gives experiment results of how to select the number of original clustering center in order to fit mouth shape classification and how to select features to be propitious to mouth shape classification, then gets a conclusion. Key words: Speechreading, Clustering analysis, Automatic speech recognition 1 引言问题,也是一个共同的问题。本文就是试图自然人机交互方式使得人同计算机的解决这一问题。口型分类明确了各种状态对交流不再局限于键盘、鼠标等外设，而是通应的口型，去掉了状态变化的不确定性，缩过语言及手势、表情、唇动等形体语言来进小了状态空间，提高了最佳状态匹配的收敛行，从而使得人机交互变得像人与人之间的速度。交流一样轻松自如。唇读通常被视为说话过目前，国内外学者对口型分类进行研究程中伴随的辅助信息，它有助于对说话者提的甚少，只有Fisher 曾在68 年提出了视素供信息的更准确理解，减弱噪音干扰。计算 (Viseme)的概念，即语音在视觉意义上的最机唇读是指通过建立口型模型和分析运动小可区分单元。大多数学者的做法是直接用参数，定量地处理唇动信息辅助进行语音识特征向量序列来进行HMM 模型的状态匹配，别[1][2] ，或者是直接对序列图像进行分类和而非图像序列的HMM 模型状态匹配，这样做识别。