马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

老牧童 • 2024-10-21 16:26 • 未分类 • 阅读 8

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素本文接前面文章入门强化学习所需掌握的基本概念 MDP 的前置知识随机过程马尔可夫过程马尔可夫奖励根据上文我们已经得知在随机过程的基础上增加马尔可夫性质即可得马尔可夫过程而再增加奖励则得到了马尔可夫奖励过程 MRP 如果我们再次增加

大家好，欢迎来到IT知识分享网。

本文接前面文章：

入门强化学习所需掌握的基本概念
MDP的前置知识：随机过程、马尔可夫过程、马尔可夫奖励

根据上文我们已经得知，在随机过程的基础上

增加马尔可夫性质，即可得马尔可夫过程
而再增加奖励，则得到了马尔可夫奖励过程(MRP)
如果我们再次增加一个来自外界的刺激比如智能体的动作，就得到了马尔可夫决策过程(MDP)

通俗讲，MRP与MDP的区别就类似随波逐流与水手划船的区别在马尔可夫决策过程中，

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

考虑到在当前状态和当前动作确定后，那么其对应的即时奖励则也确定了

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

，故sutton的RL一书中，给的状态转移概率矩阵类似为

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

从而可得奖励函数即为

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

通过上文，我们已经知道不同状态出现的概率不一样（比如今天是晴天，那明天是晴天，还是雨天、阴天不一定），同一状态下执行不同动作的概率也不一样（比如即便在天气预报预测明天大概率是天晴的情况下，你大概率不会带伞，但依然不排除你可能会防止突然下雨而带伞）

而有了动作这个因素之后，我们重新梳理下价值函数

首先，通过“状态价值函数”对当前状态进行评估

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

相当于从状态S出发遵循策略

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

能获得的期望回报

其次，通过“动作价值函数”对动作的评估

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

相当于对当前状态S依据策略

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

执行动作

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

得到的期望回报，这就是大名鼎鼎的Q函数，得到Q函数后，进入某个状态要采取的最优动作便可以通过Q函数得到

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

当有了策略、价值函数和模型3个组成部分后，就形成了一个马尔可夫决策过程（Markov decision process）。如下图所示，这个决策过程可视化了状态之间的转移以及采取的动作。

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

且通过状态转移概率分布，我们可以揭示状态价值函数和动作价值函数之间的联系了

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

针对这个公式大部分资料都会一带而过，但不排除会有不少读者问怎么来的，考虑到对于数学公式咱们不能想当然靠直觉的自认为，所以还是得一五一十的推导下

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

上述推导过程总共五个等式，其中，第三个等式到第四个等式依据的是

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

，至于第四个等式到第五个等式依据的是状态转移概率矩阵的定义

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

的计算结果互相代入，可得马尔可夫决策的贝尔曼方程

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

上述过程可用下图形象化表示(配图来自文献21)

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

计算示例和更多细节待补充..

想在NLP领域更系统、深入提升的同学，我建议你看下【NLP高级小班第十一期】一次报名，答疑服务三年

马尔可夫决策过程(MDP)：马尔可夫奖励(MRP) + 智能体动作因素

考虑到市面上课程大都以讲技术、讲理论为主，鲜有真正带着学员一步步从头到尾实现企业级项目的高端课程，故我们让大厂技术专家手把手带你实战大厂项目。一方面，让大家更好的在职提升，另一方面，力求让每位同学都深刻理解NLP的各大模型、理论和应用。

第十一期，除了继续维持上一期的：

五大技术阶段：分别从NLP基础技能、深度学习在NLP中的应用、Seq2Seq文本生成、Transformer与预训练模型、模型优化等到新技术的使用，包括且不限于GPT、对抗训练、prompt小样本学习等
八大企业项目：包括机器翻译系统、文本摘要系统、知识图谱项目、聊天机器人系统，以及基本文本的问答系统、FAQ问答机器人、文本推荐系统、聊天机器人中的语义理解
标准流程：环境配置与特征工程、模型构建与迭代优化、模型评估与优化上线；
就业指导：就业部辅助BAT大咖讲师做简历指导、面试辅导、就业内推。

本期更对技术和项目阶段做了大力度改进：

对于技术阶段，新增文本检索系统中的关键技术以及22年年底爆火的ChatGPT原理解析
对于项目阶段，新增第五大企业级项目：短文本相关性语义搜索系统

面向群体： 本课程适合已经在做AI的进一步在职提升，比如在职上班族跳槽涨薪/升职加薪，采用严格筛选制（通过率不到1/3），需要具备一定的基础能力才能报名通过，故以下同学优先：

985或211高校的CS、数学理工科相关专业的应届或往届研究生
已有一定的AI在职开发经验，如AI岗想在职提升
已有一定的AI项目经验，如学过七月在线的机器学习集训营

【NLP高级小班第十一期】已开营，放5个免费试听名额，有意找苏苏老师（VX：julyedukefu008 ）或七月在线其他老师申请试听了解课程

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/91725.html

赞 (0)

0

发表回复

关注微信