大家好,欢迎来到IT知识分享网。
Beta分布与Dirichlet分布的定义域均为[0,1],在实际使用中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为二项分布的先验概率,Dirichlet分布可作为多项分布的先验概率。这两个分布都用到了Gamma函数,所以,首先了解一下Gamma函数。
1. Gamma函数
首先看其表达式
Γ(x)=∫∞0tx−1e−tdt
这样的表达看懂都很难,更不知道那些数学家怎么想出来的。据LDA数学八卦中记录,在Gamma函数的发现中做出主要贡献的数学家有哥德巴赫、丹尼尔·伯努利(不是伯努利分布的那个伯努利),最终由欧拉解决这个问题(这些大数学家互相都认识的啊)。
Gamma函数是对阶乘在实数领域的扩展,也就是说, Γ(x+1)=xΓ(x) ,下面用分部积分的方法进行推导,如不关心,可以略过。
据PRML第71页(2.14)式,Gamma函数在Beta分布和Dirichlet分布中起到了归一化的作用。
2. Beta分布
Beta分布描述的是定义在区间[0,1]上随机变量的概率分布,由两个参数 α>0 和 β>0 决定,通常记为 μ∼Beta(μ|α,β) ,其概率密度函数如下
P(μ|α,β)=Γ(α+β)Γ(α)Γ(β)μα−1(1−μ)β−1=1B(α,β)μα−1(1−μ)β−1
其中, Γ(⋅) 就是Gamma函数, B(α,β) 为Beta函数,并且
B(α,β)=Γ(α)Γ(β)Γ(α+β)
Beta分布的概率密度函数曲线如下图:(摘自wikipedia Beta distribution)
由于Beta分布定义在区间[0,1]上,所以适合作为概率的分布。第一段提到Beta分布可作为二项分布的先验概率,那就需要从二项分布的定义来理解Beta分布的形式。已知二项分布的形式为:
p(x=k|n,μ)=Cknμk(1−μ)n−k
对
μ
进行后验概率估计时,其似然项是
μ
和
(1−μ)
的指数形式,如果先验概率也选择为
μ
和
(1−μ)
的指数形式,那么后验概率就仍然保持这种指数形式,这种性质叫做共轭分布,我们会在后面的文章中对共轭分布进行介绍。
因此,Beta分布就是
μ
和
(1−μ)
的指数形式,其中Beta函数为归一化系数。Beta分布的均值和方差分别为
E[μ]=αα+β
var(μ)=αβ(α+β)2(α+β+1)
3. Dirichlet分布
Dirichlet分布是关于定义在区间[0,1]上的多个随机变量的联合概率分布,假设有 d 个变量
μi
p(μ|α)=Dir(μ|α)=Γ(α^)Γ(α1)⋯Γ(αd)∏di=1μαi−1i
Dirichlet分布的每一个随机变量具有统计量如下:
E[μi]=αiα^
var(μi)=αi(α^−αi)α^2(α^+1)
cov(μi,μj)=αiαjα^2(α^+1)
由于Dirichlet分布描述的是多个定义于区间[0,1]的随机变量的概率分布,所以通常将其用作多项分布参数 μi 的概率分布。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/12533.html