研究大规模预训练对从二维图像估计营养成分的影响.pdfVIP

研究大规模预训练对从二维图像估计营养成分的影响.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

研究大规模预训练对从二维图像估计营养成分的影响

MicheleAndrade,GuilhermeA.L.Silva,ValériaSantos,

GladstonMoreiraandEduardoLuz

ComputingDepartment,UniversidadeFederaldeOuroPreto,OuroPreto,35402-136,MinasGerais,Brazil.

eduluz@.br

ABSTRACT

本从图像中估算食物的营养成分是一项具有重要健康和饮食监测意义的关键任务。这极具挑战

译性,尤其是仅依赖二维图像时,由于食品展示方式、照明条件的变化以及在没有深度信息的

中情况下推断体积和质量的固有难度。此外,在这个领域内,最先进的方法依赖于专有的数据

集进行大规模预训练,这也阻碍了结果的可重复性。本文研究了大规模预训练数据集对仅使

2用二维图像进行营养估算的深度学习模型性能的影响。我们微调并评估了在两个大型公共数

v

6据集ImageNet和COYO上进行了预训练的VisionTransformer(ViT)模型,并将其与基线CNN

9模型(InceptionV2和ResNet-50)以及一个在专有的JFT-300M数据集上进行过预训练的状

9态-of-the-art方法进行了性能比较。我们在Nutrition5k数据集上开展了广泛的实验,该数据

3

0集是一个带有高精度营养注释的大型现实食品盘子集合。我们使用平均绝对误差(MAE)和

.

8平均绝对百分比误差(MAE%)进行评估后发现,在JFT-300M数据集上预训练的模型显著

0优于在公共数据集上预训练的模型。出乎意料的是,该研究中的大规模COYO数据集预训练

5

2的模型在这个特定回归任务上的表现劣于ImageNet预训练的模型,这反驳了我们的初始假

:设。我们的分析提供了定量证据,强调了预训练数据集特征(包括规模、领域相关性及整理

v

i质量)在二维营养估算中有效迁移学习的关键作用。

x

r

aKeywords营养估计食物识别深度学习视觉变换器预训练迁移学习计算机视觉。

1介绍

仅从图像估计食物的营养成分在计算机视觉和营养科学交叉领域提出了一个重要挑战。全球对健康、饮食管

理和慢性疾病预防的关注日益增加,加剧了对可访问且准确的工具来追踪营养摄入量的需求。能够通过一张

餐点的照片确定卡路里、碳水化合物、蛋白质和脂肪的能力将彻底改变个人健康管理、饮食研究和营养支持

系统。

尽管这项任务具有潜力,但其本质上非常复杂,特别是当依赖于智能手机摄像头等常见设备提供的标准二维

图像数据时。关键困难包括食物呈现的巨大变异性(如照明、角度、摆盘),区分混合菜肴中的个别成分的挑

战,以及从单一二维视角估计分量和体积的不确定性。传统方法通常需要手动输入或补充数据(例如食品秤、

测量工具),这限制了可扩展性和用户便利性。

最近的研究试图通过多种方法来应对这些挑战。像Nutrition5k[1]、pic2kcal[2]、ISIAFood-500[3]和Food2K[4]

这样的数据集已经出现,提供了大量食品图像,通常还包含相关的营养信息和成分列表。一些研究探索了使

用深度传感器[1,5]或显式体积估算技术[6]来缓解二维数据的局限性。深度学习模型,特别是卷积神经网

研究大规模预训练对从二维图像估算营养成

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档