- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
生成式AI算法训练风险的合规管理研究
作者:罗世杰贺国荣
来源:《湖北经济学院学报》2023年第06期
关键词:生成式AI;算法训练风险;风险治理;合规管理;算法合规
中图分类号:TP18;D922.1文献标志码:A文章编号:1672-626X(2023)06-0106-10
2022年底,OpenAI正式推出其研发的智能对话机器人ChatGPT,并迅速在全球范围内爆
火。2023年4月,其再度推出GPT-4,并公布其将联网,意味着生成式AI技术再达高峰。生
成式AI技术流程大致可以分为训练和生成两个部分,通过学习大量数据并进行模型训练,能
够自动生成符合特定领域规律的全新内容。生成式AI算法训练具有前所未有的独特性——其
训练过程自主性较强、训练结果可控性较低,训练阶段的效果直接影响模型的优劣,从而左右
生成数据的质量①。但生成式AI技术的研发与应用也是一把双刃剑:一方面,ChatGPT等一
系列生成式大语言模型的研发与应用意味着生成式AI技术达到领域前沿,其技术价值丰富、
应用场景广泛,将大力促进经济和社会发展;另一方面,其崛起也引发诸多负外部性,既包括
知识产权归属、商业秘密保护、数据与算法安全等法律问题,还包括就业替代、人类主权失范
等伦理问题。
在此背景下,我国已展开相关立法活动:2023年6月,《人工智能法草案》预备提请全
国人大常委会审议;同年7月,出台《生成式人工智能服务管理暂行办法》(以下简称《服务
办法》)。这说明我国即将进入人工智能强监管时代,而生成式AI算法训练风险的防范与规
制也一跃成为全新且热潮的法律课题。
一、生成式AI算法训练风险的类型化梳理
在生成式AI技术不断升级并被广泛应用背景下,作为其核心的算法模型训练是法律风险
密集的环节。生成式AI算法训练以数据、算法、算力以及算法标注等重要元素为基础,其训
练全过程(计划、过程与结果)可能引发各类风险。以GPT-4為例说明,生成式AI算法训练
引发的风险包括如下几类:
(一)生成式AI算法训练的数据合法性与质量风险
其一,生成式AI算法训练的数据获取途径合法性问题。一方面,在生成式AI算法训练过
程中,易出现数据获取途径不透明问题。目前GPT-4算法模型仍系“算法黑箱”,OpenAI没有
向外界披露其所使用数据的来源。且随着GPT-4的训练数据库联网,其违法违规抓取互联网
信息以获得训练数据的风险增大。另一方面,生成式AI算法训练易引发违法抓取个人数据问
题。在个人数据安全层面,生成式AI可能未经用户同意就进行大量抓取。此外,GPT-4的“预
学习”无需人工介入、标注和监督,导致GPT-4在获取预训练数据的效率上很难受人的干预和
调控,因而违法抓取个人数据的情况无可避免[1]。
其二,生成式AI算法训练阶段生成的数据合法性与质量问题。一方面,算法训练生成的
数据遭遇极大合法性挑战。由于用于算法训练的数据可能不准确或存在倾向性,故难以保证其
合法性,导致生成的数据也极有可能具有“毒性”[2]。易言之,GPT-4的算法训练所需数据量极
大,而该部分数据通常涉及隐私、权属、公平竞争等问题,很可能违背相关法律和伦理规范。
若对所获数据内容的合法性和合规性不予置评和纠正,基于其进行的算法训练也会类似“蝴蝶
效应”继续生成不合法数据。另一方面,“毒树之果”②效应蔓延至生成式AI算法训练过程中的
数据质量方面,用低质量数据生成低质量数据的情况无可避免。同时,也有可能本不属于低质
量的数据在训练过程中被“污染”变成低质量数据。
其三,生成式AI算法训练所涉数据的泄露与滥用问题。一方面,生成式AI在算法训练过
程中,极易遭受数据泄露问题,这种数据泄露可能系人为,也可能系算法训练技术本身问题。
且随着愈来愈多领域对生成式AI加以应用,尤其在算法训练的过程中,数据泄露成为一大隐
患。因为数据作为重要生产要素,一旦泄露将给企业、行业带来重大损失。另一方面,生成式
算法训练所需数据面临被滥用问题。由于生成式AI的算法训练过程具有强大的模仿与生成能
力,不法分子可能利用其整合与生成虚假信息,引发社会安全与经济效益问题。且即使是零碎
信息,GPT-4也可能将其与其他类型数据拼合在一起进行挖掘分析,从而推断出关系国家安
全、公共安全、个人和组织合法权益的信息[3]。从而可能影响到国家、社会和个人利益安
全。
(二)生成式
文档评论(0)