- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
遍历性条件的策略选择 隐含了贪婪原则的选择策略, 无法同时保证遍历性,需要寻找其它选择策略 在下面的迭代过程中 ?-贪婪方法 其中|A(st)|为决策集合的大小,?为探索概率,一般随时间的增长而递减。 Boltzman分布法 模仿热力学中的Boltzman分布,得到了一种新的策略选取方法,可以使价值函数值大的行为获得更大的被选概率。 ?的取值一般也随时间的增长而减小。 2. Sarsa算法 Rummery和Niranjan于1994年提出 由于算法中只用到了st、at、r、st+1和at+1五个量,所以Sutton在其书中将其命名为Sarsa。 一种策略有关(on-policy)的学习算法 Sarsa学习算法的收敛性 定理6-8:有限MDP下,如果Sarsa学习算法的策略选择满足GLIE(Greedy in the Limit with Infinite Exploration)条件或RRR(Restricted Rank-based Randomized)条件,且Var{r(s, a)}有界,0??n1,满足 则当n??,收敛于最优值Q*(s, a)。 策略选择条件 GLIE(Greedy in the Limit with Infinite Exploration)条件 每一个(s, a)会被无限访问; Q函数的策略选择随着迭代次数的增长,以概率1收敛于贪婪方法 RRR条件是另一类常见的策略选择思想,这一条件要求对某一行为的选择概率应与该行为的价值函数值呈非减关系,即: 存在问题 收敛速度慢(状态空间、决策空间规模) 因为在一步学习中,获得的即时回报只能影响相邻状态的价值函数值预测。 Markov条件 3. 多步学习算法 学习公式改为: en(s)资格迹(eligibility trace) (时间信度) 0??1为衰减因子,dn(st,at,st+1)为TD误差,例如: 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 6.2.3 在控制中的应用 西洋跳棋 倒立摆控制 任务调度 机器人动作学习 与神经网络结合 1. pH值控制 连续搅拌釜CSTR(Continuous Stirred Tank Reactor)控制系统,该控制系统的目的是保持搅拌釜中溶液的pH值保持在一个给定的水平。pH值y(t)可由pH计读出。pH值的控制由一个滴定系统完成,控制信号u(t)由计算机给出。 状态设计 High if y(t)SP+1 High: if SP+0.2 y(t)?? SP+1 Goal: if SP-0.2? y(t)?? SP+0.2 Low: if SP-1? y(t) SP-0.2 Lower: if y(t)SP-1 行为设计 滴定系统采用增量式控制 #a为行为编号,具体有: 大减、减、小减、等待、小增、增、大增 7种,依次编号。例如等待的行为编号为4。 状态转移图 即时回报设计 除了在Goal区域,其余区域的回报均是惩罚 学习策略 单步Q-学习控制 行为选择采用?贪婪算法,具体参数如下: 折扣因子?=0.98, 学习率?=0.3, 探索概率?=0.3。 控制效果 假设机器人欲前往目的地G,不同行为的即时回报r如下图所示。 G 100 100 0 0 0 0 0 0 0 0 0 0 0 2. 移动机器人路径规划 G 100 100 0 0 0 0 0 0 0 0 0 0 0 一步迭代 G 100 100 0 0 90 90 90 0 0 0 0 0 0 第2步迭代 G 100 100 0 81 90 90 90 81 81 81 81 0 0 第3步迭代 G 100 100 0 81 90 90 90 81 81 81 81 72.9 72.9 第4步迭代 * * 需要所有的模型信息 * 需要所有的模型信息 * 需要所有的模型信息 * V(S)和策略同时迭代 * 当?=0时,即为普通的贪婪方法。 第6章 学习控制-增强学习 智能控制基础 6.2.1 增强学习的基本思想 6.2.2 增强学习的主要算法 6.2.3 增强学习在控制中的应用 6.2 增强学习 6.2.1增强学习的基本思想 强化学习是介于监督学习和无监督学习之间的一种学习方法,它不需要训练样本,但需要对行为结果进行评价,通过这些评价来间接指导行为的改进,直至满足目标。 心理学基础 19世纪末,俄国生理学家巴甫洛夫(Pavlov)建立经典条件反射(classica
您可能关注的文档
- 植物生命活动的调节 同步练习.doc
- 植物生长与环境.ppt
- 植物组织培养的污染问题.doc
- 止血包扎固定搬运.ppt
- 纸篮子生产线的工作研究与改进.doc
- 指纹识别在网吧系统应用.doc
- 制动系统故障诊断与排除.ppt
- 制药专业英语词汇完整翻译版.doc
- 质粒的基本知识.doc
- 质量工程师考前培训教材.ppt
- 多点监督与特征融合校准:目标检测算法的创新与突破.docx
- 南宁市门诊HIV_AIDS患者抑郁状况剖析与影响因素探究.docx
- 医疗过失犯罪中客观归责理论的精准适用与深度解析.docx
- 南宁市低碳经济发展研究.docx
- 清解瘀毒胶囊对脑出血大鼠血红蛋白毒性作用及机制探究.docx
- 内蒙古赤峰市元宝山区农村小学教师培训:现状、问题与突破路径.docx
- 泉州开发区国有资产投资经营有限公司发展战略研究:基于区域经济与市场环境的分析.docx
- 能源利用效率与经济增长方式的深度耦合及中国战略抉择.docx
- 分布式信号波达方向 - 时延联合估计算法的深度剖析与创新探索.docx
- 新媒体环境下大学校园精神传播的创新变革.docx
最近下载
- 临床思维能力的培养与提高PPT讲解课件.ppt VIP
- 运用PDCA降低留置尿管相关尿路感染.pptx VIP
- 课题申报书:数智时代生成式人工智能赋能高等教育教学研究.docx VIP
- 初中生语文新课标必读模拟训练.doc VIP
- 消化道穿孔术后的护理查房.pptx VIP
- 佳能 5D3 _ 5d mark iii-中文手册.pdf VIP
- 儿童读物 神奇树屋 30 - Haunted Castle on Hallows Eve.doc VIP
- 《宁夏闽宁镇:昔日干沙滩,今日金沙滩》-中职语文高二同步课件精选(高教版2023·职业模块).pptx VIP
- 红楼梦.ppt VIP
- 消化道穿孔术后护理查房.pptx VIP
文档评论(0)