2016年教育部自然科学二等奖-马尔科夫决策过程的理论与应用
发布人:高级管理员
发布日期:2017-07-03
马尔科夫决策过程的理论与应用(郭先平,黄永辉)
马尔可夫决策过程(MDP)是分析和解决随机动态系统优化问题的有力工具。本项目推进了连续时间MDP理论的新进展:1. 提出了被称为研究MDP平均最优第三种方法的“最优双不等式”方法;2. 解决了A.A.Yushkevich教授和O.Hernandez-Lerma 院士等提及的关于连续时间MDP的公开问题,以及俄罗斯V.V.Rykov院士等提出的连续时间MDP控制过程的构造问题; 3. 建立了美法学者关注的非平稳离散时间MDP平均最优方程,系统研究了SMDP有限阶段优化问题。上述理论在大量实际问题中得到验证和应用。