- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Under review as a conference paper at ICLR 2016
POLICY DISTILLATION
´ ˘ ¨
Andrei A. Rusu, Sergio Gomez Colmenarejo, C¸ aglar Gulc¸ehre, Guillaume Desjardins,
James Kirkpatrick, Razvan Pascanu, Volodymyr Mnih, Koray Kavukcuoglu Raia Hadsell
Google DeepMind
London, UK
andreirusu, sergomez, gdesjardins, kirkpatrick, razp, vmnih,
korayk, raia@, gulcehrc@iro.umontreal.ca
ABSTRACT
6
1
0 Policies for complex visual tasks have been successfully learned with deep rein-
2 forcement learning, using an approach called deep Q-networks (DQN), but rela-
tively large (task-specific) networks and extensive training are needed to achieve
n good performance. In this work, we present a novel method called policy dis-
a
J tillation that can be used to extract the policy of a reinforcement learning agent
and train a new network that performs at the expert level while being dramati-
7
cally smaller and more efficient. Furthermore, the same method can be used to
] consolidate multiple task-specific policies into a single policy. We demonstrate
G these claims using the Atari domain and show that the multi-task distilled agent
L outperforms the single-task teachers as well as a jointly-trained DQN agent.
.
s
c 1 INTRODUCTION
[
2
您可能关注的文档
- 浅谈信息学竞赛中的“0”和“1”.ppt
- 深度学习论文Matching Networks for One Shot Learning_20180118194149.pdf
- 深度学习论文Progressive Neural Networks_20180118194149.pdf
- 深度学习论文Lifelong Machine Learning Systems Beyond Learning Algorithms_20180118194149.pdf
- 深度学习论文Deep Learning of Representations for Unsupervised and_20180118194149.pdf
- 深度学习论文ACTOR-MIMIC DEEP MULTITASK AND TRANSFER REINFORCEMENT LEARNING_20180118194149.pdf
- 深度学习论文Trust Region Policy Optimization_20180118194150.pdf
- 深度学习论文Mastering the game of Go with deep_20180118194149.pdf
- 深度学习论文Dueling Network Architectures for Deep Reinforcement Learning.pdf
- 深度学习论文Continuous Deep Q-Learning with Model-based Acceleration_20180118194149.pdf
最近下载
- 零售金融消费者权益保护专题报告 2024.docx
- 传感器与检测技术第四版胡向东习题答案.pdf
- 2023全国职业院校技能大赛-西式烹饪赛项备考试题库-下(多选题部分) .docx
- 保时捷Cayenne Turbo, Turbo S_2010款_汽车使用手册用户操作图解驾驶车主车辆说明书电子版.pdf
- 动物疫病防治员国家标准.doc VIP
- 爱戴尊敬荣光 麦克白 威尔第钢琴伴奏五线谱子.pdf VIP
- 新时代、新思维、新高考.pptx
- 2002年至2019年 西藏自治区15岁及以上文盲人口(人口抽样调查)统计.docx
- 医院应急预案及处理流程.docx
- 动物疫病防治员国家职业标准(三级).doc VIP
文档评论(0)