概率分布之Beta分布与Dirichlet分布

大家好，欢迎来到IT知识分享网。

Beta分布与Dirichlet分布的定义域均为[0,1]，在实际使用中，通常将两者作为概率的分布，Beta分布描述的是单变量分布，Dirichlet分布描述的是多变量分布，因此，Beta分布可作为二项分布的先验概率，Dirichlet分布可作为多项分布的先验概率。这两个分布都用到了Gamma函数，所以，首先了解一下Gamma函数。

1. Gamma函数

首先看其表达式
$\Gamma(x)=\int_0^\infty t^{x-1} e^{-t}dt$
这样的表达看懂都很难，更不知道那些数学家怎么想出来的。据LDA数学八卦中记录，在Gamma函数的发现中做出主要贡献的数学家有哥德巴赫、丹尼尔·伯努利(不是伯努利分布的那个伯努利)，最终由欧拉解决这个问题(这些大数学家互相都认识的啊)。
Gamma函数是对阶乘在实数领域的扩展，也就是说， $\Gamma(x+1) = x \Gamma(x)$ ，下面用分部积分的方法进行推导，如不关心，可以略过。

Γ (x) = \int \infty 0 t x - 1 e - t d t = 1 x \int \infty 0 e - t d t x = 1 x (e - t t x | \infty 0 - \int \infty 0 t x d e - t) = 1 x \int \infty 0 t x e - t d t = 1 x Γ (x + 1)

$\begin{align}\Gamma(x)&=\int_0^\infty t^{x-1} e^{-t}dt \\ &=\frac{1}{x} \int_0^\infty e^{-t}dt^x \\ &=\frac{1}{x}(e^{-t} t^x |_0^\infty - \int_0^\infty t^x de^{-t}) \\ &=\frac{1}{x} \int_0^\infty t^x e^{-t} dt \\ &= \frac{1}{x} \Gamma(x+1) \end{align}$

据PRML第71页(2.14)式，Gamma函数在Beta分布和Dirichlet分布中起到了归一化的作用。

2. Beta分布

Beta分布描述的是定义在区间[0,1]上随机变量的概率分布，由两个参数 $\alpha>0$ 和 $\beta>0$ 决定，通常记为 $\mu \sim Beta(\mu|\alpha,\beta)$ ，其概率密度函数如下
$P(\mu|\alpha,\beta) = \dfrac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \mu^{\alpha-1} (1-\mu)^{\beta-1} = \dfrac{1}{B(\alpha,\beta)} \mu^{\alpha-1} (1-\mu)^{\beta-1}$
其中， $\Gamma(\cdot)$ 就是Gamma函数， $B(\alpha,\beta)$ 为Beta函数，并且
$B(\alpha,\beta) = \dfrac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$
Beta分布的概率密度函数曲线如下图：(摘自wikipedia Beta distribution)

由于Beta分布定义在区间[0,1]上，所以适合作为概率的分布。第一段提到Beta分布可作为二项分布的先验概率，那就需要从二项分布的定义来理解Beta分布的形式。已知二项分布的形式为：

p(x=k|n,μ)=Cknμk(1−μ)n−k
$p(x=k|n,\mu) = C_n^k \mu^k (1-\mu)^{n-k}$

对

μ
$\mu$ 进行后验概率估计时，其似然项是

μ
$\mu$ 和

(1−μ)
$(1-\mu)$ 的指数形式，如果先验概率也选择为

μ
$\mu$ 和

(1−μ)
$(1-\mu)$ 的指数形式，那么后验概率就仍然保持这种指数形式，这种性质叫做共轭分布，我们会在后面的文章中对共轭分布进行介绍。

因此，Beta分布就是

μ
$\mu$ 和

(1−μ)
$(1-\mu)$ 的指数形式，其中Beta函数为归一化系数。Beta分布的均值和方差分别为

E[μ]=αα+β
$E[\mu] = \dfrac{\alpha}{\alpha+\beta}$

var(μ)=αβ(α+β)2(α+β+1)
$var(\mu) = \dfrac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$

3. Dirichlet分布

Dirichlet分布是关于定义在区间[0,1]上的多个随机变量的联合概率分布，假设有 $d$ 个变量 $\mu_i$ ，并且 $\sum_{i=1}^d \mu_i = 1$ ，记 $\boldsymbol{\mu} = (\mu_1,\mu_2,...,\mu_d)$ ，每个 $\mu_i$ 对应一个参数 $\alpha_i>0$ ，记 $\boldsymbol{\alpha} = (\alpha_1,\alpha_2,...,\alpha_d)$ ， $\hat{\alpha} = \sum_{i=1}^d \alpha_i$ ，那么它的概率密度函数为
$p(\boldsymbol{\mu}|\boldsymbol{\alpha}) = Dir(\boldsymbol{\mu}|\boldsymbol{\alpha}) = \dfrac{\Gamma(\hat\alpha)}{\Gamma(\alpha_1) \cdots \Gamma(\alpha_d)} \prod_{i=1}^d \mu_i^{\alpha_i-1}$
Dirichlet分布的每一个随机变量具有统计量如下：
$E[\mu_i] = \dfrac{\alpha_i}{\hat\alpha}$
$var(\mu_i) = \dfrac{\alpha_i (\hat\alpha-\alpha_i)}{\hat\alpha^2(\hat\alpha+1)}$
$cov(\mu_i,\mu_j) = \dfrac{\alpha_i \alpha_j}{\hat\alpha^2(\hat\alpha+1)}$
由于Dirichlet分布描述的是多个定义于区间[0,1]的随机变量的概率分布，所以通常将其用作多项分布参数 $\mu_i$ 的概率分布。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/12533.html

概率分布之Beta分布与Dirichlet分布

1. Gamma函数

2. Beta分布

3. Dirichlet分布

相关推荐

发表回复