时间约束的视频推理分割及自动化基准构建-计算机科学-视频分析-数字孪生表示-大语言模型.pdf

时间约束的视频推理分割及自动化基准构建-计算机科学-视频分析-数字孪生表示-大语言模型.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

时间约束的视频推理分割及自动化基准构建

YiqingShen,ChenjiaLi,ChenxiaoFan,andMathiasUnberath()

JohnsHopkinsUniversity,Baltimore,MD,USA

{yshen92,unberath}@

摘要传统视频分割方法局限于预定义的对象类别,无法识别词汇外的对

象,更不用说那些在复杂文本查询中仅被隐式提及而未明确标识的对象。

这一局限性限制了视频分割在复杂多变场景中的实用性,在这些场景中难

本以定义一个封闭的对象类别集,并且用户可能不知道将在视频中出现的确

译切对象类别。这样的场景可以在手术室视频分析中出现,不同的医疗系统

中可能使用不同的工作流程和仪器,需要灵活的视频分析解决方案。现在,

推理分割(RS)为这种解决方案带来了希望,使得自然语言文本查询成

1为识别要分割的对象的一种交互方式。然而,现有的视频RS公式假设目

v

8标对象在整个视频序列中始终在语境上相关。这一假设对于现实世界中

1的场景是不充分的,在这些场景中感兴趣的物体出现、消失或基于时间上

7下文动态改变相关性,例如手术器械仅在特定操作阶段变得相关,或者解

6

1剖结构在手术过程中的某些时刻才变得重要。为了促进对RS在动态任务

7.上的更多研究,我们的第一个贡献是引入了时间约束的视频推理分割,这

0是一个新型的任务公式,要求模型根据包含时间推理的文本查询来隐式推

5断目标对象何时成为语境相关的。然而,由于我们没有数据集进行研究,

2

:因此并不知道方法执行这项任务的效果如何。所以第一步是要构建一个

v

i数据集。因为手动标注时间约束下的视频RS数据集会昂贵且限制可扩展

x

r性,我们的第二个贡献是一种创新的自动化基准构建方法。最后,我们介

a绍了TC视频RS基准测试,这是一个包含52个样本的时间约束下视频

RS数据集,使用了MVOR数据集中的视频。TCVideoRSBenchmark可

在/arcadelab/TCVideoRSBenchmark获得。

Keywords:视频分析·推理分割·数字孪生表示·大型语言模型(LLM)

代理·基准。

1介绍

传统的视频分割任务定义,包括语义分割和实例分割,在本质上受限于

预定义的对象类别,并且无法响应需要理解隐含关系和多步推理以识别对象

2Y.Shenetal.

的文本查询[3]。这些限制限制了它们在动态临床环境中的适用性,例如手

术室(OR)视频分析用于监控外科工作流程,这要求能够响应超出简单对象

识别、涵盖传统分割方法无法提供的复杂程序理解的上下文相关查询。推理

分割(RS)[5]使得基于文本的对象识别成为可能,并且已显示出有望增强

手术工作流程分析中的用户交互[10,11]。然而,现有的视频RS方法在

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档