- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
种子选择用于面向人类的图像重建通过引导
扩散
YuiTatsumiZiyueZengHiroshiWatanabe
GraduateSchoolofFSE,GraduateSchoolofFSE,GraduateSchoolofFSE,
WasedaUniversityWasedaUniversityWasedaUniversity
Tokyo,JapanTokyo,JapanTokyo,Japan
yui.t@fuji.waseda.jpzengziyue@fuji.waseda.jphiroshi.watanabe@waseda.jp
摘要—传统的可扩展图像编码方法为人和机器需要传输额
外的信息以实现可扩展性。最近的一种基于扩散的方法通过从面
向机器的图像生成面向人类的图像而避免了这一点,且不需要额
本外的比特率。然而,该方法使用单个随机种子,这可能会导致次
译优的图像质量。在本文中,我们提出了一种种子选择方法,它能
中够从多个候选者中识别出最优种子以提高图像质量而不增加比
特率。为了降低计算成本,选择是基于逆扩散过程早期步骤获得
2
v的中间输出进行的。实验结果表明,我们的方法在多个指标上优
3于基线。
6
3IndexTerms—引导扩散,可扩展图像编码,种子选择。
5
0I.介绍图1.提出的种子选择方法的处理流程。
.
6深度学习的快速发展导致越来越多的情景下,图像子,因此几乎不需要额外的比特率。实验结果表明,我
0
5既由人类分析也由识别模型进行处理,例如农场监控。们提出的方法可以提高生成图像的人类感知质量。
2
:面向人眼观看的学习图像压缩(LIC)保留了感知细节,
vII.相关工作
i而面向机器的图像编码(ICM)则丢弃了与识别无关的
x
r信息。为了弥合这一差距,需要同时支持人类视觉感知针对人类和机器的可扩展图像编码的研究已经被
a
和机器视觉的可扩展图像压缩技术。现有方法通过传输探索。ICMH-FF[1]结合了两个LIC模型:一个用于机
供人眼观看的补充信息来解决这个问题,从而增加了比器视觉,另一个用于解码额外的人类信息。然而,这种
特率。方法需要传输大量的额外数据。
一种新颖的基于扩散的方法通过从机器导向的图为了减少这一开销,已提出了一种基于扩散的方法
像生成人类导向的图像来缓解这一问题,而无需额外的[2],它将机器导向的图像转换为人类导向的图像而无需
比特率。然而,尽管扩散模型已知会根据随机种子产生额外的比特率。该方法利用ICM解码图像作为条件输
高度多样的输出,该方法仅使用单一随机种子,这可能入,并使用带ControlNet[4]的StableDiffusion[3]生
导致图像质量次优。成人类导向的图像。与传统的可伸缩编解码器相比,这
在本文中,我们提出了一种通过多次逆扩散过程选种方法显示了优越的感知质量。还引入了一个色彩控制
择最优种子来提高生成图像质量的方法。为了减少计算器(CC)模块,通过用ICM解码图像中的颜色组件替
量,我们进一步提出了一个基于早期逆扩散步骤的中间换生成图像的颜色组件来提高色彩保真度,同时保持亮
输出选择最优种子的策略。我们的方法仅传输选定的种度不变。
图2.原始图像和解码后图像的示例:(a)原始图像,(b)使用SA-ICM的机器解码图像,(c)在处的输出图像,(d)在处的输出图像,(e)在
处的输出图像,(f)应用CC模块后人类最终重建的图像。
III.提出的������
您可能关注的文档
- 使用预训练的潜扩散模型从 WiFi CSI 生成高分辨率高效图像-计算机科学-神经网络-扩散模型-图像处理.pdf
- 制作生产就绪的管道: 在医疗领域遇到的挑战和经验教训-计算机科学-机器学习-医疗领域.pdf
- 推荐系统、蚁群效应和流行性的暴政-计算机科学-有哪些信誉好的足球投注网站算法-信息检索-人机交互-人工智能.pdf
- OpenAg:民主化农业智能-计算机科学-大语言模型-农业人工智能.pdf
- VCDiag: 分类错误波形以加速故障分类-计算机科学-机器学习-设计功能验证.pdf
- 超声波球体:使用现成扬声器和可穿戴耳机的局部多通道声音球体-计算机科学-可穿戴设备.pdf
- 罕见病治疗突破2025:基因编辑技术应用研究解析.docx
- 2025年自动驾驶商用车在自动驾驶法规政策研究中的趋势报告.docx
- 数字藏品市场投机风险防范与监管机制创新研究.docx
- 新能源汽车充电网络建设与区域经济发展关系研究.docx
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)