动态规划

Posted 2021-02-14 fangxiaoqi

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了动态规划相关的知识，希望对你有一定的参考价值。

动态规划

　　动态规划是运筹学的一个分支，是求解多阶段决策过程最优化问题的数学方法，在经济管理、工程技术、工农业生产及军事部门中都有着广泛的应用，并且获得了显著的效果。

　　学习动态规划，我们首先要了解多阶段决策问题。

　　多阶段决策问题例子：

　　最短路径问题

　　背包问题

　　生产决策问题：企业在生产过程中，由于需求是随时间变化的，因此企业为了获得全年的最佳生产效益，就要在整个生产过程中逐月或逐季度地根据库存和需求决定生产计划。

　　机器负荷分配问题：某种机器可以在高低两种不同的负荷下进行生产。要求制定一个五年计划，在每年开始时，决定如何重新分配完好的机器在两种不同的负荷下生产的数量，使在五年内产品的总产量达到最高。

　　航天飞机飞行控制问题：由于航天飞机的运动的环境是不断变化的，因此就要根据航天飞机飞行在不同环境中的情况，不断地决定航天飞机的飞行方向和速度（状态），使之能最省燃料和完成飞行任务（如软着陆）。

　　多阶段决策过程的特点：

　　根据过程的特性可以将过程按空间、时间等标志分为若干个互相联系又互相区别的阶段。

　　在每一个阶段都需要做出决策，从而使整个过程达到最好的效果。

　　各个阶段决策的选取不是任意确定的，它依赖于当前面临的状态，又影响以后的发展。

　　当各个阶段的决策确定后，就组成了一个决策序列，因而也就决定了整个过程的一条活动路线，这样的一个前后关联具有链状结构的多阶段过程就称为多阶段决策问题。

　　针对多阶段决策过程的最优化问题，美国数学家Bellman等人在20世纪50年代初提出了著名的最优化原理，把多阶段决策问题转化为一系列单阶段最优化问题，从而逐个求解，创立了解决这类过程优化问题的新方法：动态规划。

　　对最佳路径（最佳决策过程）所经过的各个阶段，其中每个阶段始点到全过程终点的路径，必定是该阶段始点到全过程终点的一切可能路径中的最佳路径（最优决策），这就是Bellman提出的著名的最优化原理。即一个最优策略的子策略必然也是最优的。

最短路径问题

　　A地到 E 地要铺设一条煤气管道，其中需经过三级中间站，两点之间的连线上的数字表示距离。

　　如图所示，问应该选择什么路线，使总距离最短？

　　技术图片

　　解：整个计算过程分为四个阶段，从最后一个阶段开始。

　　第四阶段：有两条路。 ①D1E=5，②D2E=2。②最优。

　　技术图片

　　第三阶段：有六条路。

　　经过C1点——①C1D1+5=8，②C1D2+2=11。 ①最优。

　　经过C2点——①C2D1+5=11，②C2D2+2=7。 ②最优。

　　经过C3点——①C3D1+5=13，②C3D2+2=12。 ②最优。

　　技术图片

　　第二阶段：有九条路。

　　经过B1点——①B1C1+8=20，②B1C2+7=21，③B1C3+12=22。 ①最优。

　　经过B2点——①B2C1+8=14，②B2C2+7=17，③B2C3+12=16。 ①最优。

　　经过B3点——①B3C1+8=21，②B3C2+7=19，③B3C3+12=23。 ②最优。

　　技术图片

　　第一阶段：有三条路。①2+20=22，②5+14=19，③1+19=20。 ②最优。

　　故最短路径为：A→B2→C1→D1→E，最短距离为19。

　　动态规划是用来解决多阶段决策过程最优化的一种数量方法。其特点在于，它可以把一个n 维决策问题变换为几个一维最优化问题，从而一个一个地去解决。

　　需指出：动态规划是求解某类问题的一种方法，是考察问题的一种途径，而不是一种算法。必须对具体问题进行具体分析，运用动态规划的原理和方法，建立相应的模型，然后再用动态规划方法去求解。

　　动态决策问题的特点：

　　系统所处的状态和时刻是进行决策的重要因素；

　　即在系统发展的不同时刻（或阶段）根据系统所处的状态，不断地做出决策；

　　找到不同时刻的最优决策以及整个过程的最优策略。

　　动态规划方法的关键：在于正确地写出基本的递推关系式和恰当的边界条件（简称基本方程）。

　　要做到这一点，就必须将问题的过程分成几个相互系的阶段，恰当的选取状态变量和决策变量及定义最优值函数，从而把一个大问题转化成一组同类型的子问题，然后逐个求解。

　　即从边界条件开始，逐段递推寻优，在每一个子问题的求解中，均利用了它前面的子问题的最优化结果，依次进行，最后一个子问题所得的最优解，就是整个问题的最优解。

　　在多阶段决策过程中，动态规划方法是既把当前一段和未来一段分开，又把当前效益和未来效益结合起来考虑的一种最优化方法。因此，每段决策的选取是从全局来考虑的，与该段的最优选择答案一般是不同的。

　　在求整个问题的最优策略时，由于初始状态是已知的，而每段的决策都是该段状态的函数，故最优策略所经过的各段状态便可逐段变换得到，从而确定了最优路线。

　　最优化原理：作为整个过程的最优策略具有这样的性质：无论过去的状态和决策如何，相对于前面的决策所形成的状态而言，余下的决策序列必然构成最优子策略。也就是说，一个最优策略的子策略也是最优的。

　　动态规划求解的多阶段问题的特点：

每个阶段的最优决策过程只与本阶段的初始状态有关，而与以前各阶段的决策无关（即为了到达本阶段的初始状态而采用哪组决策路线无关）。换言之，本阶段之前的状态与决策，只是通过系统在本阶段所处的初始状态来影响本阶段及以后各个阶段的决策。或者说，系统过程的历史只能通过系统现阶段的状态去影响系统的未来。
具有这种性质的状态称为无后效性（即马尔科夫性）状态。
动态规划方法只适用于求解具有无后效性状态的多阶段决策问题。