“The future is independent of the past given the present!”

这句话看上去很拗口，但是却蕴含着“马尔科夫链”和人生哲理。请听我慢慢分解。

01 强化学习（Reinforcement Learning）

最近，机器学习（Machine Learning）和人工智能（Artificial Intelligence）都是热门话题。代表着人类技术的未来。在机器学习中，强化学习（Reinforcement Learning）则是占据着相当重要的位置。

Reinforcement Learning is a sub-field of Machine Learning which deals with the process of decision making based on the rewards being received by the agent.

举个例子就明白了：

强化学习 – 图片来源 Safaribooksonline

上图中，Agent是一个机器人，这个过程很简单，教会机器人走路，一步一步朝着目标前进。前进过程中，会有很多选择，有的选择会带来回报，比方说正50分，有的则会带来惩罚和损失，比方说负50分。那么，最后机器人到达终点，判定行走线路的优劣则变成了分数高低的评判。

如上例中，机器人选择了有火的分岔路，损失了50分；那么，相关数据会被记录下来，形成“火 = 坏的情况，扣分”的记忆，这样就能保证之后避免走到有火的分叉口了。

生活中的例子是：狗的训练

金毛

比如说，你要训练狗狗握手，那么在小狗成功握手之后，你要奖励一块饼干，这样反复多次，小狗就会有 “握手 = 饼干（奖励）”的记忆，最后学会握手。
如果小狗随地大小便，就要有惩罚措施，让小狗认为它的行为会带来惩罚。

这就是强化学习的过程，而其中 马尔科夫链 又是必不可少的一环。

02 马尔科夫链

安德雷·马尔科夫

安德雷·马尔科夫，1856年出生的俄国著名数学家，他和切比雪夫、李雅普诺夫一起，将概率论从濒临衰亡的边缘拯救出来。三人中以马尔科夫的贡献尤为重要，潜心向学的马尔科夫，年仅40岁就被选为科学院院士，一生中发表的概率论方面的文章或专著共有二十五篇（部）之多。他研究并提出一个用数学方法就能解释自然变化的一般规律模型，被命名为马尔科夫链（Markov Chain）。

马尔科夫链是一个随机过程，同时马尔科夫链的记忆类似于“金鱼的记忆只有3秒”，非常的健忘。

1 – 2 – 3 – 4 – 5 – 6

比如说，你现在站在5对6 进行预测，根据马尔科夫链的知识，6的状态只和5有关，而前面1到2, 2到3, 3到4，4到5的整个过程无关。

马尔科夫链认为 过去所有的信息都被保存在了现在的状态下了。

马尔科夫链被用的最多的例子就是天气预测了：

天气预测

比方说，今天下雨了（rainy），那么明天的天气会怎么样呢？

如上图：

今天下雨，明天继续下雨的可能性为0.8；
今天下雨，明天下雪的可能性为0.02；
今天下雨，明天晴天的可能性为0.18；

也就是说，我只要知道今天是下雨，我就能知道明天天气的可能性，而不用去管前天是什么天气。

非马尔科夫链，图片来源Brilliant

袋中取球问题

在学习概率论的时候，基本上会遇到“袋中取球”的问题。如上图，袋中有2个绿球，2个红球，3个蓝球，我下一次取球是绿色的概率是多少，取完的球不放回袋中？

假设之前的取球结果是：绿，红，蓝，蓝

那么，我下一次取球的时候，袋中只有绿色球1个，红色球1个，蓝色球1个，我下一次取球的是绿色球的概率是1/3。这不仅和我最后一次取得球是蓝色有关，也和我之前每一次取的球的颜色有关，所以这个过程不是一个马尔科夫链过程。

马尔科夫链，图片来源Brilliant

如果是“袋中取球”，每一次取完球都放回袋中，那么，你下一次取球是绿色的概率始终是2/7。这就建立了一个马尔科夫随机过程。

03 马尔科夫链的例题和应用

马尔科夫链在生活中应用广泛，

比如时下火热的语音识别

让机器“听懂”人类的语言，两个马尔科夫模型就解决了：

声学模型：利用HMM建模（隐马尔可夫模型），HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。

语言模型：N-Gram最简单有效，所以应用的也最广泛。它基于独立输入假设：第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。

天气的预测

金融领域

接触股票的朋友应该知道，股票价格的预测其实是一个典型的马尔科夫链过程，比如今天A公司股价是￥50，明天的股价可能是￥100，也可能是￥20，这只取决与公司今天的整体状况和市场对股价的预期。而与A公司1个月前的股价无关。

通过马尔科夫链的模型转换，我们可以将事件的状态转换成概率矩阵，如下例：

A和B两个状态，A到A的概率是0.3，A到B的概率是0.7；B到B的概率是0.1，B到A的概率是0.9。

a. 初始状态在A，2次运动后，状态还在A的概率是多少？

不难吧！P = A-A-A + A-B-A = 0.3 * 0.3 + 0.7 * 0.9 = 0.72

b. 如果是2次运动后的状态概率分别是多少？初始状态和终止状态未知？

马尔科夫链矩阵示例

有了状态矩阵，我们可以轻松得出以下结论：

初始状态A，2次运动后状态为A的概率是0.72；
初始状态A，2次运动后状态为B的概率是0.28；
初始状态B，2次运动后状态为A的概率是0.36；
初始状态B，2次运动后状态为B的概率是0.64；

马尔科夫链的有趣问题还有很多，有机会可以和大家一起研究下。

04 总结

马尔科夫链也蕴含着哲学的思想：

现在的你是过去早就的，而未来的你与你的过去无关，只和你当下的努力和选择有关，放下过去，不管多么辉煌或者糟粕，背上行囊，什么时候出发都来得及！

“逃学博士”：理工科直男一枚，在冰天雪地的加拿大攻读工程博士。闲暇之余分享点科学知识和学习干货。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/91121.html

一文了解马尔科夫链（Markov Chain）背后的科学和哲学知识！

01 强化学习（Reinforcement Learning）

02 马尔科夫链

03 马尔科夫链的例题和应用

04 总结

发表回复

一文了解马尔科夫链（Markov Chain）背后的科学和哲学知识！

01 强化学习（Reinforcement Learning）

02 马尔科夫链

03 马尔科夫链的例题和应用

04 总结

相关推荐

发表回复