概率分布之Beta分布与Dirichlet分布

概率分布之Beta分布与Dirichlet分布Beta分布与Dirichlet分布的定义域均为[0,1],在实际使用中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为二项分布的先验概率,Dirichlet分布可作为多项分布的先验概率。这两个分布都用到了Gamma函数,所以,首先了解一下Gamma函数。

大家好,欢迎来到IT知识分享网。

Beta分布与Dirichlet分布的定义域均为[0,1],在实际使用中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为二项分布的先验概率,Dirichlet分布可作为多项分布的先验概率。这两个分布都用到了Gamma函数,所以,首先了解一下Gamma函数。

1. Gamma函数

  首先看其表达式
   Γ(x)=0tx1etdt
这样的表达看懂都很难,更不知道那些数学家怎么想出来的。据LDA数学八卦中记录,在Gamma函数的发现中做出主要贡献的数学家有哥德巴赫、丹尼尔·伯努利(不是伯努利分布的那个伯努利),最终由欧拉解决这个问题(这些大数学家互相都认识的啊)。
  Gamma函数是对阶乘在实数领域的扩展,也就是说, Γ(x+1)=xΓ(x) ,下面用分部积分的方法进行推导,如不关心,可以略过。
  

Γ(x)=0tx1etdt=1x0etdtx=1x(ettx|00txdet)=1x0txetdt=1xΓ(x+1)



据PRML第71页(2.14)式,Gamma函数在Beta分布和Dirichlet分布中起到了归一化的作用。

2. Beta分布

  Beta分布描述的是定义在区间[0,1]上随机变量的概率分布,由两个参数 α>0 β>0 决定,通常记为 μBeta(μ|α,β) ,其概率密度函数如下
   P(μ|α,β)=Γ(α+β)Γ(α)Γ(β)μα1(1μ)β1=1B(α,β)μα1(1μ)β1
其中, Γ() 就是Gamma函数, B(α,β) 为Beta函数,并且
   B(α,β)=Γ(α)Γ(β)Γ(α+β)
Beta分布的概率密度函数曲线如下图:(摘自wikipedia Beta distribution)




Beta distribution




由于Beta分布定义在区间[0,1]上,所以适合作为概率的分布。第一段提到Beta分布可作为二项分布的先验概率,那就需要从二项分布的定义来理解Beta分布的形式。已知二项分布的形式为:

  

p(x=k|n,μ)=Cknμk(1μ)nk




μ
进行后验概率估计时,其似然项是

μ


(1μ)
的指数形式,如果先验概率也选择为

μ


(1μ)
的指数形式,那么后验概率就仍然保持这种指数形式,这种性质叫做共轭分布,我们会在后面的文章中对共轭分布进行介绍。

因此,Beta分布就是

μ


(1μ)
的指数形式,其中Beta函数为归一化系数。Beta分布的均值和方差分别为

  

E[μ]=αα+β


  

var(μ)=αβ(α+β)2(α+β+1)

3. Dirichlet分布

  Dirichlet分布是关于定义在区间[0,1]上的多个随机变量的联合概率分布,假设有 d 个变量

μi
,并且 di=1μi=1 ,记 μ=(μ1,μ2,...,μd) ,每个 μi 对应一个参数 αi>0 ,记 α=(α1,α2,...,αd) α^=di=1αi ,那么它的概率密度函数为
p(μ|α)=Dir(μ|α)=Γ(α^)Γ(α1)Γ(αd)di=1μαi1i
  Dirichlet分布的每一个随机变量具有统计量如下:
   E[μi]=αiα^
   var(μi)=αi(α^αi)α^2(α^+1)
   cov(μi,μj)=αiαjα^2(α^+1)
  由于Dirichlet分布描述的是多个定义于区间[0,1]的随机变量的概率分布,所以通常将其用作多项分布参数 μi 的概率分布。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/12533.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信