40页PPT-大语言模型在计算机视觉领域的应用(字节跳动2024).pptx

40页PPT-大语言模型在计算机视觉领域的应用(字节跳动2024).pptx

  1. 1、本文档共39页,其中可免费阅读12页,需付费89金币后方可阅读剩余内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大语言模型在计算机视觉领

域的应用

演讲人:冯佳时;;

背景介绍;;;;

是否可基于

LLM搭一个生成理解统一的视觉基础模型?;

基于LLM的图像理解;

LLM图像理解与文字描述生成;

幻觉

?语言模型缺少对图像内容的参考,容易虚构不存在的内容。

?从语言模型的训练语料中,构造出常见的内容,例如“红色的”。;

a带定位能力的LLM;;

现有模型的局限

?需要借助一个大规模的分割模型(例如meta的

SAM),严重拖慢响应速度。

?只能定位和分割一个物体,

文档评论(0)

wszwtlg202 + 关注
实名认证
内容提供者

一页纸且

1亿VIP精品文档

相关文档