改进高度不平衡数据上的预测使用开源合成数据过采样附和-计算机科学-预测建模-人工智能-合成数据.pdf

下载文档

0
0
约1.29万字
约 13页
2025-07-28 发布于中国
举报
版权申诉
保障服务

改进高度不平衡数据上的预测使用开源合成数据过采样附和-计算机科学-预测建模-人工智能-合成数据.pdf

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

改进高度不平衡数据

上的预测使用开源合成数据过采样附和

IvonaKrchovaMichaelPlatzer

MOSTLYAIMOSTLYAI

ivona.krchova@mostly.aimichael.platzer@mostly.ai

本

译PaulTiwald

中MOSTLYAI

1paul.tiwald@mostly.ai

4摘要

1不平衡的表格数据集在预测建模和数据分析方面给广泛的应用领域带来

.了重大挑战。在许多现实场景中，如欺诈检测、医疗诊断和罕见事件预测，

0少数类别的样本数量极其不足，使得传统的机器学习算法难以达到高精度。

5这些算法倾向于偏向多数类别，导致生成有偏见的模型，难以准确地表示少

:数类别。合成数据有望通过提供新的、多样化的且高度逼真的样本解决少数

i类别代表性不足的问题。本文介绍了使用AI生成的合成数据对高度不平衡

x表格数据集进行过采样的基准研究。

a我们评估了一个开源解决方案的效果，即MOSTLYAI的合成数据SDK，

它为混合类型数据提供了灵活且用户友好的合成上采样方法。我们将使用合

成记录进行上采样的数据集训练的预测模型与使用标准方法（如简单的过采

样和SMOTE-NC）训练的模型进行了比较。我们的结果显示，通过生成填

充特征空间稀疏区域的数据点，合成数据可以提高少数群体的预测准确性。

我们证明了经过上采样的合成训练数据始终能够产生性能最佳的预测模型，

特别是在包含非常少少数样本的混合类型数据集中。

1介绍

人工智能生成的合成数据，我们在下文中将其简称为合成数据，是通过

在原始数据集上训练一个生成模型而创建的。在推理阶段，生成模型从零开

始创建具有统计代表性的合成记录。由于其主要用途是增强数据隐私，因此

合成数据在各种注重隐私敏感的行业中日益重要。除了隐私之外，合成数据

还提供了修改和定制数据集以满足特定需求的可能性。在这篇研究论文中，

我们探讨了合成数据通过少数类别的合成过采样来改善具有不平衡类别分

布的数据集上机器学习算法性能的潜力。

类别不均衡是许多现实世界表格数据集中常见的问题，在这种情况下，一个

或多个类别的样本数量显著低于其他类别。这样的失衡可能导致对少数类

别的预测表现不佳，而在诸如欺诈检测或极端保险索赔等应用中，这些类别

往往是最感兴趣的。传统的过采样方法，如简单的过度采样或SMOTE[2]，

已经显示出在缓解这一问题方面取得了一定的成功。尽管这些方法被广泛

使用，但它们通常存在局限性，并且可能会引入负面影响模型性能的偏差。

一项研究表明，在与传统机器学习算法[8]结合应用时，经典过采样技术包

括SMOTE是无效的。

简单的过度采样通过简单地复制少数类样本以减轻类

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

改进高度不平衡数据上的预测使用开源合成数据过采样附和-计算机科学-预测建模-人工智能-合成数据.pdf