智能机器人原理与应用 课件 第14章 家庭智能服务机器人杂乱环境中推抓技能学习.ppt

智能机器人原理与应用 课件 第14章 家庭智能服务机器人杂乱环境中推抓技能学习.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

北京信息科技大学自动化学院智能机器人原理与应用“智能检测技术与模式识别”研究所

14家庭智能服务机器人杂乱环境中推抓技能学习杂乱环境中机器人推动与抓取技能自主学习问题被学者广泛研究,实现二者之间的协同是提升抓取效率的关键,本文提出一种基于生成对抗网络与模型泛化的深度强化学习算法GARL-DQN。首先,将生成对抗网络嵌入到传统DQN中,训练推动与抓取之间的协同进化;其次,将MDP中部分参数基于目标对象公式化,借鉴事后经验回放机制(HER)提高经验池样本利用率;然后,针对图像状态引入随机(卷积)神经网络来提高算法的泛化能力;最后,设计了12个测试场景,在抓取成功率与平均运动次数指标上与其他4种方法进行对比,在规则物块场景中两个指标分别为91.5%和3.406;在日常工具场景中两个指标分别为85.2%和8.6,验证了GARL-DQN算法在解决机器人推抓协同及模型泛化问题上的有效性。

14.1家庭智能空间服务机器人操作技能框架本文提出一种机器人自监督学习方法GARL-DQN,用于训练杂乱场景中机器人推抓之间的协同。首先,将两个RGB-D相机采集到的当前环境中的图像状态信息送入经验池中,并通过重力方向正投影构建RGB、Depth以及Mask目标掩码高度图。其次,将上述高度图经过特征提取网络进行特征提取。将提取到的特征经过随机网络层处理,以提高该算法的泛化性。然后,将特征输入到推动与抓取网络中用于生成推动与抓取功用性图。最后,将抓取网络作为判别器,推动网络作为生成器,评估当前状态是否可以对目标物体执行抓取,以便在推动与抓取之间进行选择。两个网络交替训练,提高训练速度。基于GARL-DQN的深度强化学习机器人操作技能框架如图14.1所示。图14.1基于GARL-DQN的深度强化学习机器人操作技能框架

模型泛化与迁移学习密切相关,用于从源任务转移知识来提高目标任务的性能。然而,强化学习与监督学习不同的是,将源任务上预先训练的模型进行微调以适应目标任务往往是无益的。因此,本小节构建了一种随机卷积网络来增强GARL-DQN算法的泛化能力。算法具体如下:引入一个随机网络,将其先验参数进行初始化,对强化学习模型的初始状态用网络层进行处理并将处理后的结果输入到卷积神经网络中。在每一轮迭代后,该卷积神经网络都会重新初始化网络的权重,使其可以在有噪声的特征空间上学习。14.2GARL-DQN算法设计14.2.1GARL-DQN的泛化模型建模

为了实现推抓之间的协同,在训练环境中,机器人通过RGB-D相机采集到当前时刻的图像状态信息,分别经过视觉特征提取网络与随机卷积网络提取特征,作为抓取网络算法的输入。该算法是异策略算法,将目标策略与行为策略分开训练,在保证探索的同时求得全局最优解。将面向目标的抓取网络表示为,在训练场景中随机指定目标物体并将抓取奖励表示为,的定义方式如下:14.2GARL-DQN算法设计14.2.2GARL-DQN抓取网络目标重标记策略可分为以下两种情况:若机器人未抓取到任何物体则认为是失败的回合,不存入经验池中;若机器人抓取到非目标物体或者为移动遮挡物所做的抓取动作,将非目标物体标记为,并对样本元组进行转换存储到经验池中。

本章将推动动作作为抓取动作的辅助动作,目标为减小目标物体周围的“空间占有率”。但本文的目标为减少机器人的总运动次数,故应尽可能地降低推动动作的频率。考虑到机器人推抓之间的相互作用复杂且耦合度较高,故将基于目标的推动网络作为生成器,使得动作价值函数不断逼近抓取网络学习到的阈值,由抓取网络作为判别器来判断当前状态是否适合抓取。14.2GARL-DQN算法设计14.2.3GARL-DQN的推动网络建模

本节给出抓取网络与推动网络之间的生成对抗网络建模使得该算法可以更好地拟合出动作参数,学习到最优的推抓位置参数与角度参数。基于两个网络之间的零和博弈,将目标设置为一个状态的收益分布而不是收益均值,将平均回报向量转化为回报分布函数。将动作价值函数表示为随机变量,建立期望值与期望函数之间的关系:,将定义在分布上的贝尔曼算子表示为,最终得到最终得到贝尔曼方程如式(1)与式(2)所示:(1)

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档