模型不可知的性别偏见控制通过稀疏自编码器生成文本到图像-计算机科学-机器学习-文本到图像-扩散模型-图像生成.pdfVIP

下载本文档

1
0
约3.97万字
约 14页
2025-07-31 发布于北京
举报
版权申诉

模型不可知的性别偏见控制通过稀疏自编码器生成文本到图像-计算机科学-机器学习-文本到图像-扩散模型-图像生成.pdf

1、本文档共14页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模型不可知的性别偏见控制通过稀疏自编码器生成文本到

图像∗

ChaoWu,ZhenyiWang,KangxianXie,NareshKumarDevulapally,

†

VishnuSureshLokhande,MingchenGao

UniversityatBuffalo,USA

本UniversityofMaryland,CollegePark,USA

译{cwu64,kangxian,devulapa,vishnulo,mgao8}@,

中zwang169@

3摘要SDXL）进行的广泛评估表明，SAEDebias显著减少

7了性别偏见，同时保留了生成质量。据我们所知，这

0文本到图像（T2I）扩散模型经常表现出性别偏是首次应用稀疏自动编码器来识别并干预T2I模型

2.见，特别是在生成职业与性别主题之间的刻板联想中的性别偏见的工作。这些发现有助于构建具有社会

7时。本文提出了SAEDebias，这是一种轻量级且与模责任感的生成AI，提供了一种解释性和与模型无关

5型无关的框架，用于减轻T2I生成中的这种偏见。与的工具以支持文本到图像生成过程中的公平性。

:依赖于CLIP基础过滤或提示工程的先前方法不同，

i这些方法通常需要特定模型调整并提供有限的控制

x能力，SAEDebias直接在特征空间中操作，无需重1介绍

新训练或架构修改。通过利用一个在性别偏见数据集

文本到图像（T2I）扩散模型[1,2,3,4]在最近

上预训练的k稀疏自动编码器，该方法识别出稀疏潜

的研究中显示出在生成高保真度和分辨率的图像方

在空间中的与性别相关的方向，捕捉职业刻板印象。

面的显著进步。然而，在生成过程中可能存在关于性

具体来说，从稀疏潜伏变量构建每个职业的一个有偏

别、种族和年龄等敏感属性的潜在偏见[5,6,7]。其

方向，并在推理过程中抑制这些方向，以引导生成结

中，性别偏见长期存在，并且由于其往往是隐性的并

果趋向于更加性别平衡的输出。只需训练一次，稀疏

嵌入各种语义背景中，消除起来仍然具有挑战性。由

自动编码器就提供了一个可重复使用的去偏见方向，

于传统上男女所扮演的社会角色不同，性别偏见在工

提供了对有偏子空间的有效控制和解释性洞察。跨多

个T2I模型（包括StableDiffusion1.4、1.5、2.1和作场景中尤为明显，这种模式被T2I模型[8]学习和

强化。特别地，职业身份提示经常暴露T2I模型中

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

模型不可知的性别偏见控制通过稀疏自编码器生成文本到图像-计算机科学-机器学习-文本到图像-扩散模型-图像生成.pdfVIP