- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 动态规划 动态规划是上个世纪 50 年代初由美国数学家 R .Bellman 提出的。动态规划所研究的 对象是一类过程最优化问题。其方法特点在于把决策过程的时间以及当时的状态作为参量, 化为一簇形式相同的最优化子问题,即动态规划模型,然后按次序逐一求解这些子问题,就 可得出问题的解. 根据决策过程的时间参数是连续的还是离散的,状态转移是确定的还是随机的。动态规 划可分为四种情形:连续确定型;连续随机型;离散确定型和离散随机型。本书只讨论离散 确定型的动态规划,并且设过程的时间参数只取有限个值,即过程的阶段数是有限的。请注 意这儿的时间参数是虚拟的,它不一定是真正的时间,而是为建立动态规划模型而引入的。 动态规划的核心是如何把一个具体的问题转化为动态规划模型。问题不同,其动态规划 的模型不同,其解法也不完全相同。所以,用动态规划解决实际问题需要技巧和智慧。首先 要判断能否化为动态规划模型,即前言中指出具有适宜子结构和重叠子集。然后列出动态规 划的具体模型,最后要设计出适合该模型的具体算法. 本章我们列举了若干动态规划模型,希望读者能从这些具体的例子中学习和掌握动态规 划这一方法. 5 .0 离散确定性动态规划的基本概念 离散确定性决策过程也称之为多阶段决策过程。有如下几个概念: 阶段 (stage) :我们假定决策过程分n 个阶段,n 可能有限,也可能无限。本文 n 为有 限值,第k 阶段就用 k 表示,k =0,1,2 ,…,n 。 状态 (state) :它描述决策过程中各个阶段所处的状况。在不同状态下采取不同决策.我 们用 xk 表示阶段 k 的状态变量,它的取值可能是一个集合中的元素。 决策 (decision) :在决策过程中每一个阶段k 每一种状态 xk 下要作一个决策 u,u 的取 值是有限制的,显然它与所处的状态 x 有关。我们用 U(x )表示在阶段 k 状态下 u 的可行决 k k 策等.所谓决策,就是 U(x ) 中选取 u 的一个值 u .当 u 决定后,就转移到 k +1 阶段某一 k k k 状态 xk +1 .这就是所谓的状态转移方程: x + =φ(u ) k 1 k k 策略:假设第 i 阶段处于状态xi 下,选取的可行决策为u ∈U(x ) ,那么由状态转移方 i i 程得到 i +1 阶段的状态 xi+1,而在状态xi+1 下选取的可行决策为ui+1 ∈U(xi+1) ,当 i =m , m +1,…,k -1 时得将决策序列 u ,u + ,…,u .则称u ,…,u 为子策略.当 m =0, m m 1 k m k k =n 时,u ,u ,…,u 称之为策略(Policy) . 0 1 n 指标函数:能用动态规划求解的最优化问题,其指标函数一般有三种形式:连和,连积 和极大极小.这样便于构造其子问题的指标函数.指标函数是用来衡量策略优劣的数量函 数.使指标函数达到最优的策略,称之为最优策略. 动态规划的核心是最优性原理: 最优策略具有这样的性质:无论过去的状态和决策如何,对前面的决策所导致的现在状 态而言,余下的诸决策必须构成最优的决策.由此可见,最优策略的子策略必须是最优的. 用动态规划解最优化问题,可以分四步: 1.首先刻画最优解的结构.包括如何划分阶段,每个阶段有哪些状态;每种状态下的 可行决策集是什么,以及状态如何转移等. 2 .根据最优性原理列出递归方程(可以是逆序的也可以是顺序的,根据问题不同进行选 择) .这一步是解决问题的关键. 3 .利用递归方程,
文档评论(0)