实时手语手势字幕在视频会议中的应用-计算机科学-深度学习-图像处理-计算机视觉.pdfVIP

实时手语手势字幕在视频会议中的应用-计算机科学-深度学习-图像处理-计算机视觉.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

实时手语手势字幕在视频会议中的应用

SharanyaMukherjee,MdHishaamAkhtar,andDrKannadasanR

VelloreInstituteofTechnology,Vellore

摘要与听力障碍者沟通一直是一项相当艰巨的任务。建立这种沟通的最

常用方法之一是使用基于手势的语言。然而,很多人并不了解手语中的细

微差别。利用计算机视觉进行手语识别旨在消除聋哑人和普通人之间的交

流障碍,使他们能够正常与其他人的沟通。最近的疫情让全世界都感到震

本惊,并改变了我们的交流方式。视频会议已成为每个人必不可少的一部分,

译包括听力障碍者。在最近的研究中发现,在这些视频通话期间,听力障碍

者更喜欢使用手势而不是打字。在这篇论文中,我们提出了一款浏览器扩

中展程序,该程序将自动把手语翻译成字幕以供视频通话中的其他人查看。

1包含超过2000个词级ASL视频[12]的数据集将被使用,这些视频由超过

v100名手势者完成。

3

4

5Keywords:机器学习·深度学习·图像处理·计算机视觉·手语·

4

1浏览器扩展·套接字

.

7

0

51介绍

2

:

v基于手势的语言使用在听力受损的人类中变得越来越流行。然而,目前

i

x只有大约25万到50万人使用美国手语,这大大限制了他们可以轻松交流

r

a的人数。替代手语的唯一方法是通过书写,但这非常繁琐、缺乏个性化,并

且在现实生活情境下不切实际,尤其是在疫情期间的视频会议期间。为了解

决这个问题并使视频通话中的动态沟通成为可能,我们提出了一种手语识别

系统,该系统将自动实时地将手语翻译成文本并在视频通话中为所有人显示

字幕。

手语识别包括按单词识别和实时按字符识别。本文的目标是使用深度学

习技术实现实时的美国手语单词级识别。我们的工作将主要分为三个实时

任务:

–视频采集:获取该人签署视频的过程

–框架分析与分类:视频中帧的分析与分类

2SharanyaMukherjee,MdHishaamAkhtarandDrKannadasanR

–预测显示:显示最有可能预测的单词

从计算机视觉的角度来看,这项工作的挑战性很大,因为有许多考虑因

素,包括环境问题如照明或摄像头位置或背景、遮挡如手的一部分超出摄像

头的视野范围、检测每个手势之间的边界(确定一个手势结束和另一个开始

的时间)

以前使用神经网络识别字符级美国手语,准确率一直超过90%,但大多

数都需要通过动作追踪手套或其他昂贵硬件设备进行三维捕捉,而且只有极

少数提供实时分类。这些由硬件强加的限制降低了这些解决方案的可行性和

可扩展性。

我们提出的系统包含一个管道,该管道从用户本地网络摄像头获取手语

视频。接着,从视频中提取个别帧,并对其进行模型预测。然后通过

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档