大家好,欢迎来到IT知识分享网。
最大似然估计及估计量的无偏性
1 数理统计基本概念
1.1 总体 X X X
在数理统计中,我们往往研究有关对象的某一项数量指标(例如,研究某种灯泡的寿命,这一数量指标)。为此,考虑与这一数量指标相联系的随机试验,对这一数量指标进行实验或观察。我们将实验全部可能的观察值称为 总体,即:所研究对象的全部个体(数据)的集合。这些数值不一定都不相同,数目上也不一定是有限的,每一个可能观察值称为 个体。总体中所包含的个体数量称为总体的 容量。容量为有限的称为 有限总体;容量为无限的称为 无限总体。
例如,考察某大学,一年级男生的身高,若一年级男生人数为2000人,每个男生的身高是一个可能观察值,共2000个可能观察值,是一个有限总体。又例如,考察一湖泊任意地点的深度(平面上有无数多的点),所得总体为无限总体。
因为总体中的个体都是随机实验的一个观察值,因此可以看作某一随机变量 X X X的值,这样,一个总体对应于一个随机变量 X X X。我们对一个总体的研究就是对一个随机变量 X X X的研究, X X X的分布函数与数字特征就称为总体的分布函数和数字特征。笼统的称为总体 X X X。
例如,检验零件的好坏,以0代表正品,1代表次品。设出现次品的概率为 p p p(常数),那么总体就由一些”0″和”1″组成,这个总体对应(0-1)分布 P { X = x } = p x ( 1 − p ) 1 − x , x = 0 , 1 P\{X=x\}=p^x(1-p)^{1-x},\ \ x=0,1 P{
X=x}=px(1−p)1−x, x=0,1的随机变量。
1.2 简单随机样本
在实际中,总体分布一般是未知的。在数理统计中,都是通过从总体中抽取一部分个体,根据获取的数据来对总体分布做出推断,被抽取的这部分个体叫做样本。样本 是按照一定的规则从总体中抽样出来的一部分个体,所谓 “按照一定的规则” 是指总体中的每一个个体均有同等被抽出的机会。即相同条件下,对总体 X X X进行相同的,独立的观察并记录结果。将 N N N次观察的结果按实验的次序记为 x 1 , x 2 , ⋯ , x N x_1,x_2,\cdots,x_N x1,x2,⋯,xN,无特别说明样本都指简单随机样本。也可以说 N N N个独立且与总体 X X X同分布的随机变量 X 1 , X 2 , ⋯ , X N X_1,X_2,\cdots,X_N X1,X2,⋯,XN,他们对应的观察值 x 1 , x 2 , ⋯ , x N x_1,x_2,\cdots,x_N x1,x2,⋯,xN称为样本值。将样本看成一个随机变量,写成 ( X 1 , X 2 , ⋯ , X N ) (X_1,X_2,\cdots,X_N) (X1,X2,⋯,XN),此时样本观察值写成 ( x 1 , x 2 , ⋯ , x N ) (x_1,x_2,\cdots,x_N) (x1,x2,⋯,xN)。
【注】样本的性质与维度问题:
- 样本是独立同分布的,分布函数表示为 F ( x 1 , x 2 , ⋯ , x N ) = F ( x 1 ) F ( x 2 ) ⋯ F ( x N ) = ∏ i = 1 N F ( x i ) F(x_1,x_2,\cdots,x_N )=F(x_1)F(x_2)\cdots F(x_N)=\prod_{i=1}^{N}F(x_i) F(x1,x2,⋯,xN)=F(x1)F(x2)⋯F(xN)=∏i=1NF(xi);概率密度为 f ( x 1 , x 2 , ⋯ , x N ) = f ( x 1 ) f ( x 2 ) ⋯ f ( x N ) = ∏ i = 1 N f ( x i ) f(x_1,x_2,\cdots,x_N )=f(x_1)f(x_2)\cdots f(x_N)=\prod_{i=1}^{N}f(x_i) f(x1,x2,⋯,xN)=f(x1)f(x2)⋯f(xN)=∏i=1Nf(xi);
- 根据研究对象的不同,样本 ( X 1 , X 2 , ⋯ , X N ) (X_1,X_2,\cdots,X_N) (X1,X2,⋯,XN)中的一个样本 X i X_i Xi可以为任意维度的随机变量。在具体的一次观测或实验中,得到一组对应相同维度的具体数值 x 1 , x 2 , ⋯ , x N x_1,x_2,\cdots,x_N x1,x2,⋯,xN,称为样本的观察值或样本值。例如,考察某学校男生身高,则每次观察只需要记录男生身高就行,此时样本为一维数据;再例如考察某地方的环境指标,每次观测会记录该地点的水文,气象等多个值,此时样本为多维数据。有时为便于区分,将样本的观察值记为 ( x 1 , x 2 , ⋯ , x N ) (x_1,x_2,\cdots,x_N) (x1,x2,⋯,xN),即可以理解为在抽样之前或理论研究时, ( X 1 , X 2 , ⋯ , X N ) (X_1,X_2,\cdots,X_N) (X1,X2,⋯,XN)为随机变量;在抽样之后或实际应用时, ( x 1 , x 2 , ⋯ , x N ) (x_1,x_2,\cdots,x_N) (x1,x2,⋯,xN)为观察值,本质上说的是一回事。
1.3 统计量
样本 X 1 , X 2 , ⋯ , X N X_1,X_2,\cdots,X_N X1,X2,⋯,XN,不含任何(与总体有关的)未知参数的函数 g ( X 1 , X 2 , ⋯ , X N ) g(X_1,X_2,\cdots,X_N) g(X1,X2,⋯,XN)称为统计量。
常见的统计量:
样 本 均 值 : X ‾ = 1 N ∑ i = 1 N X i 样本均值:\overline{X}=\frac{1}{N}\sum_{i=1}^{N}X_i 样本均值:X=N1i=1∑NXi 样 本 方 差 : S 2 = 1 N − 1 ∑ i = 1 N ( X i − X ‾ ) 2 = 1 N − 1 ∑ i = 1 N ( X i 2 − N X ‾ ) 样本方差:S^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i^2-N\overline{X}) 样本方差:S2=N−11i=1∑N(Xi−X)2=N−11i=1∑N(Xi2−NX)
1.4 样本均值与总体均值、样本方差与总体方差
样本为从总体中抽样出来的个体,一般都是可数的,所以求样本均值时,直接用所有样本观察值之和除以样本个数即可。求样本均值也就是求平均值( N N N为样本个数),即: X ‾ = 1 N ∑ i = 1 N x i \overline{X}=\frac{1}{N}\sum_{i=1}^{N}x_i X=N1i=1∑Nxi而总体的个数不一定是可数的,用上述的方式求总体的均值显然是不合适的。
举个栗子,射击手进行打靶练习,规定射入区域 e 2 e_2 e2 得 2 2 2 分,射入区域 e 1 e_1 e1 得 1 1 1 分,射入区域 e 0 e_0 e0 得 0 0 0 分,射击手一次射击得分数 X X X 是一个随机变量。
设 X X X 的分布率为 P { X = k } = p k , k = 0 , 1 , 2 P\{ X=k\}=p_k,\ \ k=0,1,2 P{
X=k}=pk, k=0,1,2现在射击 N N N 次,其中得 0 0 0 分的有 a 0 a_0 a0 次,其中得 1 1 1 分的有 a 1 a_1 a1 次,其中得 2 2 2 分的有 a 2 a_2 a2 次, a 0 + a 1 + a 2 = N a_0+a_1+a_2=N a0+a1+a2=N。他射击 N N N次得分的总和为 a 0 ∗ 0 + a 1 ∗ 1 + a 2 ∗ 2 a_0*0+a_1*1+a_2*2 a0∗0+a1∗1+a2∗2。于是平均一次射击的得分为: a 0 ∗ 0 + a 1 ∗ 1 + a 2 ∗ 2 N = ∑ k = 0 2 k a k N \frac{a_0*0+a_1*1+a_2*2}{N}=\sum_{k=0}^{2}k\frac{a_k}{N} Na0∗0+a1∗1+a2∗2=k=0∑2kNak这里, a k N \frac{a_k}{N} Nak是事件 { X = k } \{X=k\} {
X=k},当 N N N很大时, a k N \frac{a_k}{N} Nak在一定意义下接近于事件 { X = k } \{X=k\} {
X=k}的概率 p k p_k pk。就是说,在实验次数很大时,随机变量 X X X的观察值的平均数 ∑ k = 0 2 k a k N \sum_{k=0}^{2}k\frac{a_k}{N} ∑k=02kNak接近于 ∑ k = 0 2 k p k \sum_{k=0}^{2}kp_k ∑k=02kpk,这一条就是大数定律的内容。我们称 ∑ k = 0 2 k p k \sum_{k=0}^{2}kp_k ∑k=02kpk为随机变量 X X X的数学期望。一般,有以下定义。
定义 设离散随机变量 X X X的分布律为 P { X = x k } = p k , k = 1 , 2 , ⋯ . P\{X=x_k\}=p_k,\ \ k=1,2,\cdots. P{
X=xk}=pk, k=1,2,⋯.若级数 ∑ k = 1 ∞ x k p k \sum_{k=1}^{\infty}x_kp_k k=1∑∞xkpk绝对收敛,则称级数 ∑ k = 1 ∞ x k p k \sum_{k=1}^{\infty}x_kp_k ∑k=1∞xkpk的和为随机变量 X X X的数学期望,记为 E ( X ) E(X) E(X)。即 E ( X ) = ∑ k = 1 ∞ x k p k E(X)=\sum_{k=1}^{\infty}x_kp_k E(X)=k=1∑∞xkpk 设连续型随机变量 X X X的概率密度为 f ( x ) f(x) f(x),若积分 ∫ − ∞ ∞ f ( x ) d x \int_{-\infty}^{\infty}f(x)dx ∫−∞∞f(x)dx绝对收敛,则称积分 ∫ − ∞ ∞ f ( x ) d x \int_{-\infty}^{\infty}f(x)dx ∫−∞∞f(x)dx的值为随机变量 X X X的数学期望,记为 E ( X ) E(X) E(X)。即 E ( X ) = ∫ − ∞ ∞ f ( x ) d x E(X)=\int_{-\infty}^{\infty}f(x)dx E(X)=∫−∞∞f(x)dx 数学期望简称期望,又称均值。
数学期望 E ( X ) E(X) E(X)完全由随机变量 X X X的概率分布所决定。若 X X X服从某一分布,也称 E ( X ) E(X) E(X)是这一分布的数学期望。
样本均值与总体均值差异:
(1)样本均值的计算依据是样本个数,总体均值的计算依据是总体的个数。一般情况下样本个数小于等于总体个数。
(2)样本均值代表着所抽取的样本的集中趋势,而总体均值代表着全体个体的集中趋势。样本来自总体,但是样本只是总体的一部分,一般有差异。
(3)选取样本的个数非常接近以至于等于总体的个数,那么样本均值与总体均值描述的就是一个对象了,这样二者自然就相等了,这一条就是大数定律的内容。
下面是方差,方差是用来计算变量与均值之间的差异。如果这个均值采用的是总体均值 μ \mu μ(数学期望),则结果为总体方差 σ 2 = 1 N ∑ i = 1 N ( X i − μ ) 2 \sigma^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2 σ2=N1∑i=1N(Xi−μ)2;但是,如果这个均值采用的是样本均值 X ‾ \overline{X} X,样本方差 S 2 = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 S^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2 S2=N1∑i=1N(Xi−X)2,样本方差定义成这样是有偏差的,这不是真正的样本方差。为了纠正这个偏量,将 样本方差 定义为: S 2 = 1 N − 1 ∑ i = 1 N ( X i − X ‾ ) 2 S^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2 S2=N−11∑i=1N(Xi−X)2,具体为什么样本方差除以 N − 1 N-1 N−1而不是 N N N,下面最大似然求高斯分布估计量的时候会说明。在这里也可以看出,是跟均值有关系,由于样本均值与总体均值的不一致导致的偏差。
2 最大似然估计
极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法,最大概似是1821年首先由德国数学家高斯(C. F. Gauss)提出。
2.1 分布率与概率密度函数
概率分布,是指用于表述随机变量取值的概率规律,即随机变量的可能取值及取得对应值的概率。对于离散性的随机变量的分布率记为 p ( x ) p(x) p(x);连续型随机变量的概率密度函数记为 f ( x ) f(x) f(x),本质上是一个东西,只是一个是离散的一个是连续的。以含有参数 θ \theta θ 的分布率为例,形式上表示为: p ( x ; θ ) = p ( x , θ ) = p ( x ∣ θ ) p(x;\theta)=p(x,\theta)=p(x|\theta) p(x;θ)=p(x,θ)=p(x∣θ),在机器学习中,这些表示都是一个意思,都表示在含有参数 θ \theta θ 的情况下, x x x 的概率。
2.2 似然函数
样本 X 1 , X 2 , … , X N X_1,X_2,\dots,X_N X1,X2,…,XN 取到观察值 x 1 , x 2 , … , x N x_1,x_2,\dots,x_N x1,x2,…,xN 的概率 L ( θ ) L(\theta) L(θ),称为似然函数。
- 若总体 X X X 为离散型,且分布律 P ( X = x ) = p ( x ; θ ) P(X=x)=p(x;\theta) P(X=x)=p(x;θ),则似然函数 L ( θ ) = P ( X 1 = x 1 , X 2 = x 2 , … , X N = x N , ) = ∏ i = 1 N p ( X i = x i ) = ∏ i = 1 N p ( x i ; θ ) L(\theta)=P(X_1=x_1,X_2=x_2,\dots, X_N=x_N,)=\prod_{i=1}^{N}p(X_i=x_i)=\prod_{i=1}^{N}p(x_i;\theta) L(θ)=P(X1=x1,X2=x2,…,XN=xN,)=∏i=1Np(Xi=xi)=∏i=1Np(xi;θ);
- 若总体 X X X 为连续型,且概率密度函数为 f ( x ) = f ( x ; θ ) f(x)=f(x;\theta) f(x)=f(x;θ),由于 P ( x = x i ) = 0 P(x=x_i)=0 P(x=xi)=0,则考虑 X X X 落在点 x i x_i xi 的某一领域 U ( x i ) U(x_i) U(xi) 内的概率, P ( X 1 ∈ U ( x 1 ) , X 2 ∈ U ( x 1 2 ) , … , X N ∈ U ( x N ) ) = f ( x 1 ; θ ) d x 1 f ( x 2 ; θ ) d x 2 … f ( x N ; θ ) d x N = ∏ i = 1 N f ( x i ; θ ) P(X_1 \in U(x_1),X_2 \in U(x_12),\dots,X_N \in U(x_N))=f(x_1;\theta)dx_1 \ f(x_2;\theta)dx_2 \ \dots f(x_N;\theta)dx_N=\prod_{i=1}^{N}f(x_i;\theta) P(X1∈U(x1),X2∈U(x12),…,XN∈U(xN))=f(x1;θ)dx1 f(x2;θ)dx2 …f(xN;θ)dxN=∏i=1Nf(xi;θ),取似然函数 L ( θ ) = ∏ i = 1 N f ( x i ; θ ) L(\theta)=\prod_{i=1}^{N}f(x_i;\theta) L(θ)=∏i=1Nf(xi;θ)
2.3 最大似然的目的
在位置参数 θ \theta θ 的取值范围内求 θ ^ \hat{\theta} θ^,使 L ( θ ^ ) = m a x L ( θ ) L(\hat{\theta})=maxL(\theta) L(θ^)=maxL(θ),即 θ \theta θ 的最大似然估计 θ ^ \hat{\theta} θ^ 为似然估计 L ( θ ) L(\theta) L(θ) 的最大值点。
2.4 最大似然求解步骤
第一步:写出似然函数 L ( θ ) L(\theta) L(θ),并取对数 l o g log log,对数可以以 2 2 2 为底也可以以 e e e为 底;
第二步:令 d l o g L ( θ ) d θ = 0 \frac{dlogL(\theta)}{d\theta}=0 dθdlogL(θ)=0 或 ∂ l o g L ( θ 1 , θ 2 ) ∂ θ i = 0 ( i = 1 , 2 ) \frac{\partial logL(\theta_1,\theta_2)}{\partial \theta_i}=0(i=1,2) ∂θi∂logL(θ1,θ2)=0(i=1,2),建立方程(组)。若从中解的唯一驻点 θ ^ = θ ^ ( X 1 , X 2 , … , X N ) \hat{\theta}=\hat{\theta}(X_1,X_2,\dots,X_N) θ^=θ^(X1,X2,…,XN) 或 θ ^ = ( θ ^ 1 , θ ^ 2 ) = ( θ ^ 1 ( X 1 , X 2 , … , X N ) , θ ^ 2 ( X 1 , X 2 , … , X N ) ) \hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2)=(\hat{\theta}_1(X_1,X_2,\dots,X_N),\hat{\theta}_2(X_1,X_2,\dots,X_N)) θ^=(θ^1,θ^2)=(θ^1(X1,X2,…,XN),θ^2(X1,X2,…,XN)),则 θ ^ \hat{\theta} θ^为 θ \theta θ 的最大似然估计;
第三步:若上述方程无解,则 L ( θ ) L(\theta) L(θ) 为 θ \theta θ 或 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2 的单调函数, θ ^ \hat{\theta} θ^ 在端点或边界上取得,需要根据具体情况具体分析。
2.5 最大似然估计的不变性
设 θ ^ \hat{\theta} θ^ 是未知参数 θ \theta θ 的最大似然估计量,对于 θ \theta θ 的函数 g ( θ ) g(\theta) g(θ),如果 g ( θ ) g(\theta) g(θ) 具有单值反函数,则 g ( θ ^ ) g(\hat{\theta}) g(θ^) 是 g ( θ ) g(\theta) g(θ) 的最大似然估计量。例如,均值位置的正太总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 的方差 σ 2 \sigma^2 σ2 的最大似然估计量为 σ ^ 2 = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 \hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2 σ^2=N1∑i=1N(Xi−X)2,则总体标准差 σ \sigma σ 的最大似然估计为 σ = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 \sigma=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2} σ=N1∑i=1N(Xi−X)2。
2.6 最大似然估计量的评选标准
2.6.1 无偏性
设 θ ^ \hat{\theta} θ^ 为 θ \theta θ 的估计量,若 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ,就称 θ ^ \hat{\theta} θ^为 θ \theta θ的无偏估计,否则称为有偏估计。若 lim N → ∞ E ( θ ^ ) = θ \mathop{\lim}_{N \to \infty }E(\hat{\theta})=\theta limN→∞E(θ^)=θ,就称 θ ^ \hat{\theta} θ^为 θ \theta θ的渐近无偏估计。
常用结论:
- X ‾ \overline{X} X是 E ( X ) = μ E(X)=\mu E(X)=μ的无偏估计,即 E ( X ‾ ) = E ( X ) = μ E(\overline{X})=E(X)=\mu E(X)=E(X)=μ;
- S 2 S^2 S2是 D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2的无偏估计,即 E ( S 2 ) = D ( X ) = σ 2 E(S^2)=D(X)=\sigma^2 E(S2)=D(X)=σ2;
- 设估计量 θ ^ 1 , θ ^ 2 , ⋯ , θ ^ N , \hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_N, θ^1,θ^2,⋯,θ^N,均为 θ \theta θ的无偏估计量, c 1 , c 2 , ⋯ , c N c_1,c_2,\cdots,c_N c1,c2,⋯,cN为常数,且 ∑ i = 1 N c i = 1 \sum_{i=1}^{N}c_i=1 ∑i=1Nci=1,则 c 1 θ ^ 1 , c 2 θ ^ 2 , ⋯ , c N θ ^ N c_1\hat{\theta}_1,c_2\hat{\theta}_2,\cdots,c_N\hat{\theta}_N c1θ^1,c2θ^2,⋯,cNθ^N仍为 θ \theta θ的无偏估计。
【注】若 θ ^ \hat{\theta} θ^为 θ \theta θ的无偏估计,则 g ( θ ^ ) g(\hat{\theta}) g(θ^)未必是 g ( θ ) g(\theta) g(θ)的无偏估计。
2.6.2 有效性
设 θ ^ 1 , θ ^ 2 \hat{\theta}_1,\hat{\theta}_2 θ^1,θ^2均为 θ \theta θ的无偏估计,若 D ( θ ^ 1 ) < D ( θ ^ 2 ) D(\hat{\theta}_1)<D(\hat{\theta}_2) D(θ^1)<D(θ^2),就称 θ ^ 1 \hat{\theta}_1 θ^1比 θ ^ 2 \hat{\theta}_2 θ^2更有效。总之,期望相同比方差。
2.6.3 一致性(相合性)
若对 ∀ ε > 0 \forall\varepsilon>0 ∀ε>0,有 lim N → ∞ P { ∣ θ ^ − θ ∣ < ε } = 1 \mathop{\lim}_{N \to \infty }P\left\{|\hat{\theta}-\theta|<\varepsilon \right \}=1 limN→∞P{
∣θ^−θ∣<ε}=1,就称 θ ^ \hat{\theta} θ^为 θ \theta θ的一致估计量或相合估计量。
3 一维高斯分布
3.1 一维高斯分布概率密度函数
一维高斯分布(正态分布)函数: f ( x ∣ μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x| \ \mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x∣ μ,σ)=2πσ1e−2σ2(x−μ)2 或者这种写法 f ( x ∣ μ , σ ) = 1 2 π σ e x p { − ( x − μ ) 2 2 σ 2 } f(x | \ \mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} f(x∣ μ,σ)=2πσ1exp{
−2σ2(x−μ)2}
高斯分布图像,以 μ = 4 , σ = 1 \mu=4,\sigma=1 μ=4,σ=1 为例:
3.1 一维高斯分布最大似然估计以及检测估计量的无偏性
题目 :设总体 X ∼ N ( μ , σ 2 ) , ( X 1 , X 2 , ⋯ , X N ) X\sim N(\mu,\sigma^2), \ (X_1,X_2,\cdots,X_N) X∼N(μ,σ2), (X1,X2,⋯,XN)为来自总体 X X X的样本。
(1)如果 σ 2 \sigma^2 σ2已知, μ \mu μ未知,求 μ \mu μ的最大似然估计量 μ ^ \hat{\mu} μ^。
(2)如果 μ \mu μ已知, σ 2 \sigma^2 σ2未知,求 σ 2 \sigma^2 σ2的最大似然估计量 σ ^ 2 \hat{\sigma}^2 σ^2。
(3)如果 μ \mu μ, σ 2 \sigma^2 σ2均未知,求 μ \mu μ, σ 2 \sigma^2 σ2的最f大似然估计量 μ ^ \hat{\mu} μ^, σ ^ 2 \hat{\sigma}^2 σ^2。
分析:
样本数据 D a t a : Data: Data: X = ( x 1 , x 2 , ⋯ , x N ) = ( x 1 p x 2 p ⋮ x N p ) N × p , x i ∈ R p , x i ∼ i i d N ( μ , σ 2 ) X = \begin{pmatrix} x_1,x_2,\cdots,x_N \end{pmatrix} =\begin{pmatrix} x_1^p \\x_2^p \\ \vdots \\ x_N^p \end{pmatrix}_{N\times p}, \ \ \ x_i \in \mathbb{R}^p, \ \ \ x_i \overset{iid}{\sim}N(\mu,\sigma^2) X=(x1,x2,⋯,xN)=⎝⎜⎜⎜⎛x1px2p⋮xNp⎠⎟⎟⎟⎞N×p, xi∈Rp, xi∼iidN(μ,σ2) 目标函数 G o a l : Goal: Goal: 求最大似然估计。为了方便表示函数,用参数 θ \theta θ 表示参数 ( μ , σ ) (\mu,\sigma) (μ,σ) M L E : θ ^ = a r g m a x θ l n L ( X ∣ μ , σ ) MLE:\hat{\theta}=arg \ \underset{\theta}{max} \ lnL(X| \ \mu,\sigma) MLE:θ^=arg θmax lnL(X∣ μ,σ) 【注】因为高斯分布的概率密度中有以 e e e 为底的指数函数,为了方便计算。所以这里的对数似然函数选取以 e e e 为底的 l n ln ln。
解:
(1)设 x 1 , x 2 , ⋯ , x N x_1,x_2,\cdots,x_N x1,x2,⋯,xN为样本的观测值,由于 σ 2 \sigma^2 σ2已知, μ \mu μ未知,似然函数为: L ( X ∣ μ ) = ∏ i = 1 N p ( x i ∣ μ ) = ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } \begin{aligned} L(X|\mu) &= \prod_{i=1}^{N}p(x_i|\mu) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2} \right\} \end{aligned} L(X∣μ)=i=1∏Np(xi∣μ)=i=1∏N2πσ1exp{
−2σ2(xi−μ)2} 似然函数取对数: l n L ( X ∣ μ ) = l n ∏ i = 1 N p ( x i ∣ μ ) = l n ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } = − N 2 l n ( 2 π ) − N l n σ − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 \begin{aligned} lnL(X|\mu) &= ln\prod_{i=1}^{N}p(x_i|\mu) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-Nln\sigma-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} lnL(X∣μ)=lni=1∏Np(xi∣μ)=lni=1∏N2πσ1exp{
−2σ2(xi−μ)2}=−2Nln(2π)−Nlnσ−2σ21i=1∑N(xi−μ)2 对数似然取导数: d l n L ( X ∣ μ ) d μ = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 \frac{dlnL(X|\mu)}{d\mu}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 dμdlnL(X∣μ)=i=1∑Nσ21(xi−μ)=0 ∑ i = 1 N ( x i − μ ) = 0 \sum_{i=1}^{N}(x_i-\mu)=0 i=1∑N(xi−μ)=0 ∑ i = 1 N x i − N μ = 0 \sum_{i=1}^{N}x_i-N\mu=0 i=1∑Nxi−Nμ=0 μ ^ = 1 N ∑ i = 1 N X i = X ‾ ( 发 现 结 果 为 样 本 均 值 ) \hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}X_i=\overline{X}(发现结果为样本均值) μ^=N1i=1∑NXi=X(发现结果为样本均值) 从结果中可以看出, μ \mu μ的最大似然估计量,只受样本值的影响。从定义的角度证明: E [ μ ^ ] = E [ 1 N ∑ i = 1 N X i ] = 1 N ∑ i = 1 N E [ X i ] = 1 N N μ = μ E[\hat{\mu}]=E[\frac{1}{N}\sum_{i=1}^{N}X_i]=\frac{1}{N}\sum_{i=1}^{N}E[X_i]=\frac{1}{N}N\mu=\mu E[μ^]=E[N1i=1∑NXi]=N1i=1∑NE[Xi]=N1Nμ=μ即, μ ^ \hat{\mu} μ^为 μ \mu μ的无偏估计量。
(2)设 x 1 , x 2 , ⋯ , x N x_1,x_2,\cdots,x_N x1,x2,⋯,xN为样本的观测值,由于 μ \mu μ已知, σ 2 \sigma^2 σ2未知,似然函数为: L ( X ∣ σ 2 ) = ∏ i = 1 N p ( x i ∣ σ 2 ) = ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } \begin{aligned} L(X|\sigma^2) &= \prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\}\end{aligned} L(X∣σ2)=i=1∏Np(xi∣σ2)=i=1∏N2πσ1exp{
−2σ2(xi−μ)2} 似然函数取对数: l n L ( X ∣ σ 2 ) = l n ∏ i = 1 N p ( x i ∣ σ 2 ) = l n ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } = − N 2 l n ( 2 π ) − N 2 l n ( σ 2 ) − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 \begin{aligned} lnL(X|\sigma^2) &= ln\prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-\frac{N}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} lnL(X∣σ2)=lni=1∏Np(xi∣σ2)=lni=1∏N2πσ1exp{
−2σ2(xi−μ)2}=−2Nln(2π)−2Nln(σ2)−2σ21i=1∑N(xi−μ)2 对数似然取导数: d l n L ( X ∣ σ 2 ) d σ 2 = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 \frac{dlnL(X|\sigma^2)}{d\sigma^2}= \sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 dσ2dlnL(X∣σ2)=i=1∑Nσ21(xi−μ)=0 − N 2 σ 2 + 1 2 σ 4 ∑ i = 1 N ( x i − μ ) 2 = 0 -\frac{N}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^{N}(x_i-\mu)^2 =0 −2σ2N+2σ41i=1∑N(xi−μ)2=0 σ ^ 2 = 1 N ∑ i = 1 N ( X i − μ ) 2 \hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2 σ^2=N1i=1∑N(Xi−μ)2 从结果中可以看出, σ ^ 2 \hat{\sigma}^2 σ^2受到样本值以及均值 μ \mu μ的影响,但是题目中已经说明, μ \mu μ是已知条件,所以这里的 μ \mu μ就是已知的总体均值,所以本质上 σ ^ 2 \hat{\sigma}^2 σ^2也仅受样本值的影响。从定义的角度证明: E [ σ ^ 2 ] = E [ 1 N ∑ i = 1 N ( X i − μ ) 2 ] = E [ 1 N ∑ i = 1 N X i 2 − 1 N ∑ i = 1 N 2 X i μ + 1 N ∑ i = 1 N μ 2 ] = E [ 1 N ∑ i = 1 N X i 2 − 2 μ 2 + μ 2 ] = E [ ( 1 N ∑ i = 1 N X i 2 − μ 2 ) ] = 1 N ∑ i = 1 N ( E ( X i 2 ) − E 2 ( X i ) ) = D ( X i ) = σ 2 \begin{aligned} E[\hat{\sigma}^2] &=E[\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-\frac{1}{N}\sum_{i=1}^{N}2X_i\mu+\frac{1}{N}\sum_{i=1}^{N}\mu^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-2\mu^2+\mu^2]\\&=E[(\frac{1}{N}\sum_{i=1}^{N}X_i^2-\mu^2)]\\&=\frac{1}{N}\sum_{i=1}^{N}(E(X_i^2)-E^2(X_i))\\&= D(X_i)\\&=\sigma^2\\ \end{aligned} E[σ^2]=E[N1i=1∑N(Xi−μ)2]=E[N1i=1∑NXi2−N1i=1∑N2Xiμ+N1i=1∑Nμ2]=E[N1i=1∑NXi2−2μ2+μ2]=E[(N1i=1∑NXi2−μ2)]=N1i=1∑N(E(Xi2)−E2(Xi))=D(Xi)=σ2 即 σ ^ 2 \hat{\sigma}^2 σ^2为 σ 2 \sigma^2 σ2的无偏估计。
(3)设 x 1 , x 2 , ⋯ , x N x_1,x_2,\cdots,x_N x1,x2,⋯,xN为样本的观值, μ \mu μ, σ 2 \sigma^2 σ2均未知,似然函数为: L ( X ∣ μ , σ 2 ) = ∏ i = 1 N p ( x i ∣ μ , σ 2 ) = ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } \begin{aligned} L(X|\mu,\sigma^2) &= \prod_{i=1}^{N}p(x_i| \mu,\sigma^2) \\ &= \prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\}\end{aligned} L(X∣μ,σ2)=i=1∏Np(xi∣μ,σ2)=i=1∏N2πσ1exp{
−2σ2(xi−μ)2} 似然函数取对数: l n L ( X ∣ μ , σ 2 ) = l n ∏ i = 1 N p ( x i ∣ σ 2 ) = l n ∏ i = 1 N 1 2 π σ e x p { − ( x i − μ ) 2 2 σ 2 } = − N 2 l n ( 2 π ) − N 2 l n ( σ 2 ) − 1 2 σ 2 ∑ i = 1 N ( x i − μ ) 2 \begin{aligned} lnL(X|\mu,\sigma^2) &= ln\prod_{i=1}^{N}p(x_i|\sigma^2) \\ &= ln\prod_{i=1}^{N}\frac{1}{\sqrt{2\pi}\sigma} exp \left\{ -\frac{(x_i-\mu)^2}{2\sigma^2}\right\} \\&=-\frac{N}{2}ln(2\pi)-\frac{N}{2}ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 \end{aligned} lnL(X∣μ,σ2)=lni=1∏Np(xi∣σ2)=lni=1∏N2πσ1exp{
−2σ2(xi−μ)2}=−2Nln(2π)−2Nln(σ2)−2σ21i=1∑N(xi−μ)2 分别对 μ \mu μ与 σ 2 \sigma^2 σ2取偏导: ∂ l n L ( X ∣ μ , σ 2 ) ∂ μ = ∑ i = 1 N 1 σ 2 ( x i − μ ) = 0 \frac{\partial lnL(X|\mu,\sigma^2)}{\partial \mu}=\sum_{i=1}^{N}\frac{1}{\sigma^2}(x_i-\mu)=0 ∂μ∂lnL(X∣μ,σ2)=i=1∑Nσ21(xi−μ)=0 ∑ i = 1 N ( x i − μ ) = 0 \sum_{i=1}^{N}(x_i-\mu)=0 i=1∑N(xi−μ)=0 μ ^ = 1 N ∑ i = 1 N X i = X ‾ \hat{\mu}=\frac{1}{N}\sum_{i=1}^{N}X_i=\overline{X} μ^=N1i=1∑NXi=X ∂ l n L ( X ∣ μ , σ 2 ) ∂ σ 2 = − N 2 σ 2 + 1 2 σ 4 ∑ i = 1 N ( x i − μ ) 2 = 0 \frac{\partial lnL(X|\mu,\sigma^2)}{\partial \sigma^2}=-\frac{N}{2\sigma^2}+\frac{1}{2\sigma^4}\sum_{i=1}^{N}(x_i-\mu)^2 =0 ∂σ2∂lnL(X∣μ,σ2)=−2σ2N+2σ41i=1∑N(xi−μ)2=0 − N + 1 σ 2 ∑ i = 1 N ( x i − μ ) 2 = 0 -N+\frac{1}{\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2 =0 −N+σ21i=1∑N(xi−μ)2=0 σ ^ 2 = 1 N ∑ i = 1 N ( X i − μ ^ ) 2 = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 \hat{\sigma}^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\hat{\mu})^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2 σ^2=N1i=1∑N(Xi−μ^)2=N1i=1∑N(Xi−X)2
在下面的无偏性检验中,可以发现 μ ^ \hat{\mu} μ^为无偏性估计,而 σ ^ 2 \hat{\sigma}^2 σ^2为有偏性估计。因为求高斯分布时,参数 μ , σ 2 \mu,\sigma^2 μ,σ2都是未知的,而求 μ ^ \hat{\mu} μ^时,不需要依赖未知参数 σ 2 \sigma^2 σ2(计算时被约去了);而计算 σ ^ 2 \hat{\sigma}^2 σ^2时,需要依赖 μ \mu μ,但是 μ \mu μ也未知,所以只能用已计算出来的 μ ^ \hat{\mu} μ^代替,而不是真正的总体均值 μ \mu μ,这就是有偏的原因。根据定义证明:
(a)检测估计量 μ ^ \hat{\mu} μ^的无偏性 E [ μ ^ ] = E [ X ‾ ] = E [ 1 N ∑ i = 1 N X i ] = 1 N ∑ i = 1 N E [ X i ] = 1 N N μ = μ E[\hat{\mu}]=E[\overline{X}]=E[\frac{1}{N}\sum_{i=1}^{N}X_i]=\frac{1}{N}\sum_{i=1}^{N}E[X_i]=\frac{1}{N}N\mu=\mu E[μ^]=E[X]=E[N1i=1∑NXi]=N1i=1∑NE[Xi]=N1Nμ=μ 即 μ ^ \hat{\mu} μ^为 μ \mu μ的无偏估计。
(b)检测估计量 σ 2 ^ \hat{\sigma^2} σ2^的无偏估计,且需要明确一些条件: 估 计 量 μ ^ 的 方 差 : D ( μ ^ ) = D ( X ‾ ) = D ( 1 N ∑ i = 1 N X i ) = 1 N 2 ∑ i = 1 N D ( X i ) = 1 N 2 N σ 2 = σ 2 N 估计量\hat{\mu}的方差: D(\hat{\mu})=D(\overline{X})=D(\frac{1}{N}\sum_{i=1}^{N}X_i)=\frac{1}{N^2}\sum_{i=1}^{N}D(X_i)=\frac{1}{N^2}N\sigma^2=\frac{\sigma^2}{N} 估计量μ^的方差:D(μ^)=D(X)=D(N1i=1∑NXi)=N21i=1∑ND(Xi)=N21Nσ2=Nσ2 总 体 方 差 : D ( X i ) = σ 2 = 1 N ∑ i = 1 N ( X i − μ ) 2 总体方差:D(X_i)=\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu)^2 总体方差:D(Xi)=σ2=N1i=1∑N(Xi−μ)2 E [ σ ^ 2 ] = E [ 1 N ∑ i = 1 N ( X i − X ‾ ) 2 ] = E [ 1 N ∑ i = 1 N X i 2 − 1 N ∑ i = 1 N 2 X i X ‾ + 1 N ∑ i = 1 N X ‾ 2 ] = E [ 1 N ∑ i = 1 N X i 2 − 2 X ‾ 2 + X ‾ 2 ] = E [ ( 1 N ∑ i = 1 N X i 2 − μ 2 ) − ( X ‾ 2 − μ 2 ) ] = E [ 1 N ∑ i = 1 N ( X i 2 − μ 2 ) ] − E ( X ‾ 2 − μ 2 ) = 1 N ∑ i = 1 N ( E ( X i 2 ) − E 2 ( X i ) ) − ( E ( X ‾ 2 ) − E 2 ( X ‾ ) ) = D ( X i ) − D ( X ‾ ) = σ 2 − σ 2 N = N − 1 N σ 2 \begin{aligned} E[\hat{\sigma}^2] &=E[\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-\frac{1}{N}\sum_{i=1}^{N}2X_i\overline{X}+\frac{1}{N}\sum_{i=1}^{N}\overline{X}^2]\\&=E[\frac{1}{N}\sum_{i=1}^{N}X_i^2-2\overline{X}^2+\overline{X}^2]\\&=E[(\frac{1}{N}\sum_{i=1}^{N}X_i^2-\mu^2)-(\overline{X}^2-\mu^2)]\\&=E[\frac{1}{N}\sum_{i=1}^{N}(X_i^2-\mu^2)] -E(\overline{X}^2-\mu^2)\\&=\frac{1}{N}\sum_{i=1}^{N}(E(X_i^2)-E^2(X_i))-(E(\overline{X}^2)-E^2(\overline{X}))\\&= D(X_i)-D(\overline{X}) \\&=\sigma^2-\frac{\sigma^2}{N}\\&=\frac{N-1}{N}\sigma^2 \end{aligned} E[σ^2]=E[N1i=1∑N(Xi−X)2]=E[N1i=1∑NXi2−N1i=1∑N2XiX+N1i=1∑NX2]=E[N1i=1∑NXi2−2X2+X2]=E[(N1i=1∑NXi2−μ2)−(X2−μ2)]=E[N1i=1∑N(Xi2−μ2)]−E(X2−μ2)=N1i=1∑N(E(Xi2)−E2(Xi))−(E(X2)−E2(X))=D(Xi)−D(X)=σ2−Nσ2=NN−1σ2 显然,所求结果 E ( σ ^ 2 ) E(\hat{\sigma}^2) E(σ^2)不等于 σ 2 \sigma^2 σ2, σ ^ 2 \hat{\sigma}^2 σ^2为有偏估计,既然有偏就需要纠偏,样本的方差该如何表示呢?根据结果,看出偏移的部分是系数 N − 1 N \frac{N-1}{N} NN−1,那就在原方程的基础上乘以系数的倒数 N N − 1 \frac{N}{N-1} N−1N,将系数部分抵消掉,这样结果就只剩 σ 2 \sigma^2 σ2了,就是无偏估计了。则无偏的样本方差 S 2 S^2 S2定义为: S 2 = N N − 1 1 N ∑ i = 1 N ( X i − X ‾ ) 2 = 1 N − 1 ∑ i = 1 N ( X i − X ‾ ) 2 = 1 N − 1 ∑ i = 1 N ( X i 2 − N X ‾ ) S^2=\frac{N}{N-1}\frac{1}{N}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i-\overline{X})^2=\frac{1}{N-1}\sum_{i=1}^{N}(X_i^2-N\overline{X}) S2=N−1NN1i=1∑N(Xi−X)2=N−11i=1∑N(Xi−X)2=N−11i=1∑N(Xi2−NX)
参考:浙大版概率论与数理统计
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/15448.html