扫描此二维码分享

2016年教育部自然科学二等奖-马尔科夫决策过程的理论与应用

发布人：高级管理员发布日期：2017-07-03

马尔科夫决策过程的理论与应用（郭先平，黄永辉）

马尔可夫决策过程(MDP)是分析和解决随机动态系统优化问题的有力工具。本项目推进了连续时间MDP理论的新进展：1. 提出了被称为研究MDP平均最优第三种方法的“最优双不等式”方法；2. 解决了A.A.Yushkevich教授和O.Hernandez-Lerma 院士等提及的关于连续时间MDP的公开问题，以及俄罗斯V.V.Rykov院士等提出的连续时间MDP控制过程的构造问题; 3. 建立了美法学者关注的非平稳离散时间MDP平均最优方程，系统研究了SMDP有限阶段优化问题。上述理论在大量实际问题中得到验证和应用。