- 1、本文档共39页,其中可免费阅读12页,需付费89金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大语言模型在计算机视觉领
域的应用
演讲人:冯佳时;;
背景介绍;;;;
是否可基于
LLM搭一个生成理解统一的视觉基础模型?;
基于LLM的图像理解;
LLM图像理解与文字描述生成;
幻觉
?语言模型缺少对图像内容的参考,容易虚构不存在的内容。
?从语言模型的训练语料中,构造出常见的内容,例如“红色的”。;
a带定位能力的LLM;;
现有模型的局限
?需要借助一个大规模的分割模型(例如meta的
SAM),严重拖慢响应速度。
?只能定位和分割一个物体,
文档评论(0)