“The future is independent of the past given the present!”
这句话看上去很拗口,但是却蕴含着“马尔科夫链”和人生哲理。请听我慢慢分解。
01 强化学习(Reinforcement Learning)
最近,机器学习(Machine Learning)和人工智能(Artificial Intelligence)都是热门话题。代表着人类技术的未来。在机器学习中,强化学习(Reinforcement Learning)则是占据着相当重要的位置。
Reinforcement Learning is a sub-field of Machine Learning which deals with the process of decision making based on the rewards being received by the agent.
举个例子就明白了:
上图中,Agent是一个机器人,这个过程很简单,教会机器人走路,一步一步朝着目标前进。前进过程中,会有很多选择,有的选择会带来回报,比方说正50分,有的则会带来惩罚和损失,比方说负50分。那么,最后机器人到达终点,判定行走线路的优劣则变成了分数高低的评判。
如上例中,机器人选择了有火的分岔路,损失了50分;那么,相关数据会被记录下来,形成“火 = 坏的情况,扣分”的记忆,这样就能保证之后避免走到有火的分叉口了。
生活中的例子是:狗的训练
- 比如说,你要训练狗狗握手,那么在小狗成功握手之后,你要奖励一块饼干,这样反复多次,小狗就会有 “握手 = 饼干(奖励)”的记忆,最后学会握手。
- 如果小狗随地大小便,就要有惩罚措施,让小狗认为它的行为会带来惩罚。
这就是强化学习的过程,而其中 马尔科夫链 又是必不可少的一环。
02 马尔科夫链
安德雷·马尔科夫,1856年出生的俄国著名数学家,他和切比雪夫、李雅普诺夫一起,将概率论从濒临衰亡的边缘拯救出来。三人中以马尔科夫的贡献尤为重要,潜心向学的马尔科夫,年仅40岁就被选为科学院院士,一生中发表的概率论方面的文章或专著共有二十五篇(部)之多。他研究并提出一个用数学方法就能解释自然变化的一般规律模型,被命名为马尔科夫链(Markov Chain)。
马尔科夫链是一个随机过程,同时马尔科夫链的记忆类似于“金鱼的记忆只有3秒”,非常的健忘。
1 – 2 – 3 – 4 – 5 – 6
比如说,你现在站在5对6 进行预测,根据马尔科夫链的知识,6的状态只和5有关,而前面1到2, 2到3, 3到4,4到5的整个过程无关。
马尔科夫链认为 过去所有的信息都被保存在了现在的状态下了。
马尔科夫链被用的最多的例子就是 天气预测了:
比方说,今天下雨了(rainy),那么明天的天气会怎么样呢?
如上图:
- 今天下雨,明天继续下雨的可能性为0.8;
- 今天下雨,明天下雪的可能性为0.02;
- 今天下雨,明天晴天的可能性为0.18;
也就是说,我只要知道今天是下雨,我就能知道明天天气的可能性,而不用去管前天是什么天气。
袋中取球问题
在学习概率论的时候,基本上会遇到“袋中取球”的问题。如上图,袋中有2个绿球,2个红球,3个蓝球,我下一次取球是绿色的概率是多少,取完的球不放回袋中?
假设之前的取球结果是:绿,红,蓝,蓝
那么,我下一次取球的时候,袋中只有绿色球1个,红色球1个,蓝色球1个,我下一次取球的是绿色球的概率是1/3。这不仅和我最后一次取得球是蓝色有关,也和我之前每一次取的球的颜色有关,所以这个过程不是一个马尔科夫链过程。
如果是“袋中取球”,每一次取完球都放回袋中,那么,你下一次取球是绿色的概率始终是2/7。这就建立了一个马尔科夫随机过程。
03 马尔科夫链的例题和应用
马尔科夫链在生活中应用广泛,
- 比如时下火热的语音识别
让机器“听懂”人类的语言,两个马尔科夫模型就解决了:
声学模型:利用HMM建模(隐马尔可夫模型),HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。
语言模型:N-Gram最简单有效,所以应用的也最广泛。它基于独立输入假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。
- 天气的预测
- 金融领域
接触股票的朋友应该知道,股票价格的预测其实是一个典型的马尔科夫链过程,比如今天A公司股价是¥50,明天的股价可能是¥100,也可能是¥20,这只取决与公司今天的整体状况和市场对股价的预期。而与A公司1个月前的股价无关。
通过马尔科夫链的模型转换,我们可以将事件的状态转换成概率矩阵,如下例:
A和B两个状态,A到A的概率是0.3,A到B的概率是0.7;B到B的概率是0.1,B到A的概率是0.9。
a. 初始状态在A,2次运动后,状态还在A的概率是多少?
不难吧!P = A-A-A + A-B-A = 0.3 * 0.3 + 0.7 * 0.9 = 0.72
b. 如果是2次运动后的状态概率分别是多少?初始状态和终止状态未知?
有了状态矩阵,我们可以轻松得出以下结论:
- 初始状态A,2次运动后状态为A的概率是0.72;
- 初始状态A,2次运动后状态为B的概率是0.28;
- 初始状态B,2次运动后状态为A的概率是0.36;
- 初始状态B,2次运动后状态为B的概率是0.64;
马尔科夫链的有趣问题还有很多,有机会可以和大家一起研究下。
04 总结
马尔科夫链也蕴含着哲学的思想:
现在的你是过去早就的,而未来的你与你的过去无关,只和你当下的努力和选择有关,放下过去,不管多么辉煌或者糟粕,背上行囊,什么时候出发都来得及!
“逃学博士”:理工科直男一枚,在冰天雪地的加拿大攻读工程博士。闲暇之余分享点科学知识和学习干货。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/91121.html