大家好,欢迎来到IT知识分享网。
本文是依照《彻底理解样本方差为何除以n-1》一文进行学习而做的学习笔记,是在学习前面一文的基础上,对某些步骤添加了一些自己的理解,如果有什么不对的地方还请各位道友多多指正哈!当然以后要是突然明白真正的道理的话还是会继续改正的~~下面进入正文
这位篇文章的博主其他文章也很好,需要的小伙伴要留意一下喔
*想到这个问题的来源:
在降维算法中,PCA使用的信息量衡量指标,就是样本方差,其公式如下
V a r = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 Var=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{X})^2 Var=n−11i=1∑n(xi−Xˉ)2
哎?突然发现,样本量不是n吗,为什么前面要除以一个n-1,按照正常来说不是除以n的吗
解释使用n-1的目的
其实,除以n-1就是为了得到样本方差的无偏估计,那么问题随之而来,什么是样本方差的无偏估计,凭什么就说除以n-1就可以,为什么不能除以n-2呢,带着这个问题,在下面就开始展开了和蔼可亲的长篇的验证
*对上方种种疑问的解决过程(证明为什么要使用n-1)
首先说明各个变量公式:
- X ˉ \bar{X} Xˉ : 样本的均值
- S 2 S^2 S2 : 样本方差
- μ \mu μ : 总体均值
- σ 2 \sigma^2 σ2 : 总体方差
样本方差 S 2 S^2 S2的公式:
S 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{X})^2 S2=n−11i=1∑n(xi−Xˉ)2
由上方提到过,n-1的目的是得到样本方差的无偏估计,那么什么是无偏估计
无偏估计(借用上方链接的例子来理解):
假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为 X 1 ˉ \bar{X_1} X1ˉ。如果你只是把 X 1 ˉ \bar{X_1} X1ˉ作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为: X 1 ˉ \bar{X_1} X1ˉ、 X 2 ˉ \bar{X_2} X2ˉ、 … \ldots … X k ˉ \bar{X_k} Xkˉ 然后在把这些平均值,再做平均,记为: E ( X ˉ ) E(\bar{X}) E(Xˉ),这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值 μ \mu μ,如果满足 E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ,这就是一个无偏估计,其中统计的样本均值也是一个随机变量, X i ˉ \bar{X_i} Xiˉ就是 X ˉ \bar{X} Xˉ的一个取值
无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:
S 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2 S2=n1i=1∑n(xi−Xˉ)2
根据无偏估计的定义可得:
E ( S 2 ) = E ( 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) − ( X ˉ − μ ) ) 2 ) 对 x i 和 X ˉ 同 时 减 去 μ = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) 打 开 平 方 = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) \begin{aligned} E(S^2)&=E(\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2) \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)-(\bar{X}-\mu))^2) ~~~~~~~~~对x_i和\bar{X}同时减去\mu \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-2(x_i-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2) ~~打开平方 \\ &=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2) \end{aligned} E(S2)=E(n1i=1∑n(xi−Xˉ)2)=E(n1i=1∑n((xi−μ)−(Xˉ−μ))2) 对xi和Xˉ同时减去μ=E(n1i=1∑n((xi−μ)2−2(xi−μ)(Xˉ−μ)+(Xˉ−μ)2) 打开平方=E(n1i=1∑n((xi−μ)2−n1i=1∑n2(xi−μ)(Xˉ−μ)+n1i=1∑n(Xˉ−μ)2)
对于均值的公式:
- E ( X ) = 1 n ∑ i = 1 n x i E(X)=\frac{1}{n}\sum_{i=1}^{n}x_i E(X)=n1∑i=1nxi
- E ( C ) = C E(C)=C E(C)=C 常数的均值还是常数本身
- E ( C X ) = C E ( X ) E(CX)=CE(X) E(CX)=CE(X)
- 由于 1 n ∑ i = 1 n x i = X ˉ \frac{1}{n} \sum_{i=1}^{n}x_i=\bar{X} n1∑i=1nxi=Xˉ
- 1 n ∑ i = 1 n ( x i − μ ) = 1 n ∑ i = 1 n x i − μ = X ˉ − μ \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)=\frac{1}{n} \sum_{i=1}^{n}x_i-\mu=\bar{X}-\mu n1∑i=1n(xi−μ)=n1∑i=1nxi−μ=Xˉ−μ
对于:
1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) 对 于 X ˉ 和 μ 在 这 里 都 是 常 数 , 所 以 相 减 也 为 常 数 = 2 ( X ˉ − μ ) ∗ 1 n ∑ i = 1 n ( x i − μ ) = 2 ( X ˉ − μ ) ( X ˉ − μ ) 使 用 上 面 均 值 公 式 里 面 的 第 三 第 四 点 , 对 上 式 进 行 化 简 = 2 ( X ˉ − μ ) 2 \begin{aligned} &~~~~~\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)~~~~~~对于\bar{X}和\mu在这里都是常数,所以相减也为常数 \\&=2(\bar{X}-\mu)*\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu) \\&=2(\bar{X}-\mu)(\bar{X}-\mu) ~~~~~~使用上面均值公式里面的第三第四点,对上式进行化简 \\&=2(\bar{X}-\mu)^2 \end{aligned} n1i=1∑n2(xi−μ)(Xˉ−μ) 对于Xˉ和μ在这里都是常数,所以相减也为常数=2(Xˉ−μ)∗n1i=1∑n(xi−μ)=2(Xˉ−μ)(Xˉ−μ) 使用上面均值公式里面的第三第四点,对上式进行化简=2(Xˉ−μ)2
1 n ∑ i = 1 n ( X ˉ − μ ) 2 = ( X ˉ − μ ) 2 对 于 X ˉ 和 μ 在 这 里 都 是 常 数 , 所 以 相 减 也 为 常 数 \begin{aligned} &~~~~~~\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2 \\&=(\bar{X}-\mu)^2~~~~~~~对于\bar{X}和\mu在这里都是常数,所以相减也为常数~~~~~~~~~~~~~~~~~~~~~~~~~~~ \end{aligned} n1i=1∑n(Xˉ−μ)2=(Xˉ−μ)2 对于Xˉ和μ在这里都是常数,所以相减也为常数
对上方 E ( S 2 ) E(S^2) E(S2)继续计算:
E ( S 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( X ˉ − μ ) 2 + ( X ˉ − μ ) 2 ) 由 上 面 拆 分 出 去 化 简 的 式 子 可 得 = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ) \begin{aligned} E(S^2)&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-\frac{1}{n} \sum_{i=1}^{n} 2(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^{n}(\bar{X}-\mu)^2) \\ &= E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-2(\bar{X}-\mu)^2+(\bar{X}-\mu)^2)~~~~由上面拆分出去化简的式子可得 \\&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2-(\bar{X}-\mu)^2) \\&=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2) \end{aligned} E(S2)=E(n1i=1∑n((xi−μ)2−n1i=1∑n2(xi−μ)(Xˉ−μ)+n1i=1∑n(Xˉ−μ)2)=E(n1i=1∑n((xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2) 由上面拆分出去化简的式子可得=E(n1i=1∑n((xi−μ)2−(Xˉ−μ)2)=E(n1i=1∑n((xi−μ)2)−E((Xˉ−μ)2)
突然发现 μ \mu μ是总体均值,那么
1 n ∑ i = 1 n ( ( x i − μ ) 2 \frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2 n1i=1∑n((xi−μ)2就是总体方差 σ 2 \sigma^2 σ2,总体方差是根据总体数据求出来的(我理解的解释是只有一个总体方差),所以对其取均值还是本身:
1 n ∑ i = 1 n ( ( x i − μ ) 2 = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 ) = σ 2 \frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2=E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)=\sigma^2 n1i=1∑n((xi−μ)2=E(n1i=1∑n((xi−μ)2)=σ2
可以观察出
E ( S 2 ) = 1 n ∑ i = 1 n ( ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ≤ σ 2 E(S^2)=\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2\leq\sigma^2 E(S2)=n1i=1∑n((xi−μ)2)−E((Xˉ−μ)2≤σ2
也就是说当除以的是n的时候, E ( S 2 ) ≤ σ 2 E(S^2)\leq\sigma^2 E(S2)≤σ2 不符合无偏估计
为了寻找出一个正确的参数,让我们来继续对刚才的式子向下化简:
在上面已经说明
1 n ∑ i = 1 n ( ( x i − μ ) 2 \frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2 n1i=1∑n((xi−μ)2就是总体方差 σ 2 \sigma^2 σ2
所以设其为 V a r ( X ) Var(X) Var(X)代表的是总体方差,相应的 E ( V a r ( X ) ) = V a r ( X ) E(Var(X))=Var(X) E(Var(X))=Var(X)
对于 E ( ( X ˉ − μ ) 2 E((\bar{X}-\mu)^2 E((Xˉ−μ)2 来说:
E ( ( X ˉ − μ ) 2 ) = 1 n ∑ i = 1 n ( X ˉ − μ ) 2 = V a r ( X ˉ ) \begin{aligned} &~~~~~E((\bar{X}-\mu)^2) \\&=\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2 \\&=Var(\bar{X}) \end{aligned} E((Xˉ−μ)2)=n1i=1∑n(Xˉ−μ)2=Var(Xˉ)
因为如果是无偏估计的话,n个 V a r ( X ˉ ) Var(\bar{X}) Var(Xˉ)的期望值就是总方差,所以可以看成:
n × V a r ( X ˉ ) = V a r ( X ) n×Var(\bar{X})=Var(X) n×Var(Xˉ)=Var(X)
根据上方拆分开化简的式子可得:
E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ) = V a r ( X ) − V a r ( X ˉ ) = σ 2 − 1 n σ 2 = n − 1 n σ 2 \begin{aligned} &~~~~~E(\frac{1}{n} \sum_{i=1}^{n} ((x_i-\mu)^2)-E((\bar{X}-\mu)^2) \\&=Var(X)-Var(\bar{X}) \\&=\sigma^2-\frac{1}{n}\sigma^2 \\&=\frac{n-1}{n}\sigma^2 \end{aligned} E(n1i=1∑n((xi−μ)2)−E((Xˉ−μ)2)=Var(X)−Var(Xˉ)=σ2−n1σ2=nn−1σ2
突然发现 E ( S 2 ) = n − 1 n σ 2 E(S_2)=\frac{n-1}{n}\sigma^2 E(S2)=nn−1σ2,如果我们让他乘上一个 n n − 1 \frac{n}{n-1} n−1n,结果就是 σ 2 \sigma^2 σ2了:
E ( S 2 ) = n − 1 n σ 2 × n n − 1 = σ 2 E(S_2)=\frac{n-1}{n}\sigma^2×\frac{n}{n-1}=\sigma^2 E(S2)=nn−1σ2×n−1n=σ2
于是根据我们得到的结论,将我们假设的 S 2 S^2 S2的基础上乘上一个 n n − 1 变 成 新 的 S 2 \frac{n}{n-1}变成新的S^2 n−1n变成新的S2:
S 2 = n n − 1 ( 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ) = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{n}{n-1}(\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{X})^2)=\frac{1}{n-1}\sum_{i=1}^{n} (x_i-\bar{X})^2 S2=n−1n(n1i=1∑n(xi−Xˉ)2)=n−11i=1∑n(xi−Xˉ)2
对于新得到的 S 2 S^2 S2进行验证,如下(因为各个步骤的细节上方已经提到了,所以这里我就偷懒喽):
= E ( 1 n − 1 ∑ i = 1 n ( x i − μ ) 2 − 2 n − 1 × n × 1 n ∑ i = 1 n ( x i − μ ) ( X ˉ − μ ) + 1 n − 1 × n × 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) \begin{aligned} &=E(\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\mu)^2-\frac{2}{n-1}×n×\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)(\bar{X}-\mu)+\frac{1}{n-1}×n×\frac{1}{n}\sum_{i=1}^{n}(\bar{X}-\mu)^2) \end{aligned} =E(n−11i=1∑n(xi−μ)2−n−12×n×n1i=1∑n(xi−μ)(Xˉ−μ)+n−11×n×n1i=1∑n(Xˉ−μ)2)
由上方验证步骤就可以得出,修正之后的样本方差的期望是总体方差的一个无偏估计,这就是为什么分母为何要除以n-1,而不是n-2,n-3等等
如果有看到这里的小伙伴,觉得哪里有问题的话,还请多多指点哈~
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/9946.html