使用近端策略优化对 ANFIS 策略进行在线优化-计算机科学-模糊逻辑-可解释人工智能-近端策略优化.pdfVIP

使用近端策略优化对 ANFIS 策略进行在线优化-计算机科学-模糊逻辑-可解释人工智能-近端策略优化.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

使用近端策略优化对ANFIS策略进行在线优化

KaaustaaubShankar,WilhelmLouw,andKellyCohen

CollegeofEngineeringandAppliedScience,UniversityofCincinnati,Cincinnati,OH

45219,USA

shankaks@,{louwwa,cohenky}@

摘要我们提出了一种使用近端策略优化(PPO)训练神经模糊控制器的

强化学习方法。与之前采用深度Q网络(DQN)和自适应神经模糊推理

本系统(ANFIS)的方法不同,我们的基于PPO的框架利用了一个稳定的

在线演员-评论家设置。在CartPole-v1环境中使用多个种子进行评估时,

译经过次更新后,通过PPO训练的模糊代理始终实现了零方差下的

中最大回报,在稳定性和收敛速度方面均超过了ANFIS-DQN基准。这

突显了PPO在强化学习任务中训练可解释神经模糊代理的潜力。

2

v

9Keywords:模糊逻辑·优化·PPO·可解释人工智能·可信赖的人工

3

0智能·解释能力

1

0

7.1介绍

0

5深度强化学习(RL)显示出在复杂领域中展现超人技能的潜力。一个例

2

:子是AlphaGo击败了一位围棋世界冠军[1]。然而,由深度神经网络(DNNs)

v

i学习到的策略仍然很大程度上不透明,限制了在自动驾驶和医疗保健等关

x

r键安全设置中的信任度。相比之下,模糊推理系统提供了透明性同时提供

a

了一个稳健的解决方案。这些系统分为两类:Mamdani和Takagi-Sugeno-

Kang(TSK)。Mamdani系统依赖于具有模糊输出和后续去模糊化的语言

IF-THEN规则,使它们高度可解释但不太适合基于梯度的调优[2]。TSK模

型则将规则的结论表示为输入的线性函数,生成更平滑的数值输出,并使更

强大的数值优化成为可能[3]。然而这两种架构仍然缺乏系统性的训练流程。

设计隶属函数、规则库和结论通常依赖于专家启发式方法或遗传算法等有哪些信誉好的足球投注网站

方法,这阻碍了其在高维或动态任务中的扩展性[4]。

神经模糊方法如ANFIS通过使用神经网络将输入转换为中间特征来解

决这一问题,这些中间特征再进入高斯隶属函数激活一阶TSK规则;其加

权输出被聚合以生成最终的动作对数。所有可训练参数,如网络权重、隶属

2K.Shankaretal.

中心和西格玛以及规则结果,都是通过梯度下降[5]更新的。此外,深度应用

如ANFIS-DQN混合体显示出潜力[6],但继承了离策略Q学习的不稳定性。

近端策略优化(PPO)通过剪辑的、在线策略替代目标解决了这些问题,

该目标产生了稳定的学习和强大的样本效率[7]。因此我们将ANFIS样式的

模糊模块集成到PPO中,形成了一个PPO-模糊代理。使用广泛研究过的卡

特波尔-v1基准测试,我们评估了这种方法是否能够在不牺牲现代策

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档