大家好,欢迎来到IT知识分享网。
前情提要
因为眼疾而在黑暗中学数学的费歇尔获得了强大的多维空间几何能力,在农业实验站的工作使他的天才得到发挥,成为了黑暗天才+农业大师。费歇尔所提出的显著直译应当是 “不太可能”,比如一组样本不太可能来自于某个总体,或者两组样本不太可能来自于相同的总体。以t检验为例,我们可以通过查表找到0.05概率对应的临界t值,这个t值构成了一个边界,再比较由样本计算出来的t值是否落在了这个“不太可能”的范围。反之,我们也可以通过查表找到我们样本计算出来的t值对应的概率p值,如果这个p值小于0.05,我们就说这个结果是显著的。然而,我们似乎漏掉了什么。卡尔.皮尔逊的儿子艾尔.皮尔逊和他的笔友奈曼最早发现了这个问题,p值的含义是什么?如果p值大于0.05那又说明了什么?最终在频繁的通信中,他们提出了一个词,假设检验。
正文
排除先天的影响,似乎每一个大师都有独特的成为大师的原因。奈曼成为大师则源于第一次世界大战。因为战火,还是学生的奈曼被迫搬家,来到了一个数学教育比较落后的大学。由于学校缺少合格的数学老师,奈曼只好去图书馆查数学期刊自学。要知道,科学家们发表的期刊文章再进入教材教学的过程中都进行了大量的简化,所以一般人都不会去读原始的文献,基本上也很少有大学生能够读懂原始文献。我们今天高中生都可以理解牛顿、爱因斯坦的理论,就是因为教材的简化,因此只学习了知识,却没有学习到获得知识的方法。奈曼就是在这种被迫看期刊原文学数学的过程中,获得了强大的数学能力。1928年,奈曼到生物统计实验室(就是《生物统计》小分队所在的地方)访问了一个暑假,由此认识了卡尔.皮尔逊的儿子,艾尔.皮尔逊。
艾尔.皮尔逊继承了父亲的统计能力,但没有继承他的缺陷,例如急于发表文章(导致戈赛特用“学生”笔名发表了t检验),控制欲强(因此跟费歇尔闹掰)等等。奈曼离开生物统计实验室以后开始了与小皮尔逊五年的书信合作。假设检验及其各处细节就在这些书信中诞生了。
小皮尔逊问奈曼的问题很简单,如果显著性检验的结果不显著说明了什么?换言之p>0.05究竟会怎样?这个问题衍生出了另两个问题:在众多统计方法中,同一批数据,如果一种统计方法不显著,但在另一种统计方法里显著又该怎么办?如果所有现存的统计方法都不显著,是否存在还未被发现的统计方法使结果显著呢?
在费歇尔的显著性检验中,费歇尔似乎只在乎显著的情况,而奈曼则发现,为了描述显著和不显著所对应的情况,起码需要两个对立的假设,否则显著性检验就没有意义。例如,你永远无法检验一组数据服从正态分布,除非你先假设,这个分布要么是正态的,要么是偏态的,然后拒绝其中一个。奈曼和小皮尔逊把要检验的假设称为“零假设”(null hypothesis),如果零假设被拒绝,那么另一个假设成立,这被称为“备择假设”(alternative hypothesis)。计算p值是为了检验零假设,实际上更多的是为了拒绝零假设,而备择假设为真时,备择假设被接受的概率被称为检验的效力(power)。Power决定了一个统计方法的好坏,在各种统计方法的选择中,尽量选择power高的。为了有一个好的power,备择假设的范围不能太大,例如零假设如果是样本服从正态分布,备择假设是样本服从其他所有可能的分布,这显然是很难搞定的。
以独立样本t检验为例,我们先假设两个样本来自相同的总体(例如吃药的人群和吃安慰剂的人群在治疗效果上没有差异),即μ1=μ2,这被称为虚无假设H0,与之相反的情况就是μ1≠μ2,这被称为备择假设H1。选定一个临界概率α=0.05(大部分科学家都喜欢用这个数字),然后计算t值,再查表找到对应的p值,如果p值小于0.05,那么就认为虚无假设H0很有可能是错的,如果拒绝了H0,就接受备择假设H1成立,即两个样本对应的总体不同(即证明了该种药物明显好于安慰剂)。当然,即使拒绝了H0,两个样本也可能来自同一个总体(即药物仍可能是无效的),换句话说就是拒绝错了,这被称为第一类错误,长远来看,一个科学家在毕生的研究中犯第一类错误的概率就是临界概率α。注意不要搞混了,α是我们设定的那个临界概率0.05(有时候也用0.01或者0.001),而我们根据计算的t值所找到的那个p值,除了跟α比较一下大小以外,与现实并没有什么联系。p值很大并不意味着H0成立的概率很大,硬说的话,p值很大的含义是假如H0成立,那么你得到这个实验结果的可能性很高(对照着看,p值很小的意思是假如H0成立,你很有可能得不到这个实验结果,因此反推H0不成立,进而H1成立),H0有多大的概率成立跟这并没有太大关系,换言之,H0从诞生之初就是为了被拒绝的,而不是被证明成立的。这就是假设检验中不显著的含义的答案,显著就是拒绝,不显著就是不拒绝,仅此而已。
如果我们拒绝了不该拒绝的,就犯了第一类错误,对应的,如果本该拒绝但我们没有拒绝,就犯了第二类错误(即药物本来是有效的,但你的实验没有得到显著的结果)。我们将犯第二类错误的概率标记为β,β的含义是指我们没有成功检测出本应显著的差异,1-β就是检验的效力(power),即该种统计方法能够成功检测出显著差异的概率。
第一类错误和第二类错误是此消彼长的。例如医生拿到了一张患者的影像片子,片子上有一个模糊的小球,这个小球有一定的可能是肿瘤。如果医生的判断标准(即临界概率α)宽松一些,即使图片很模糊依旧判断为是一个肿瘤,那么患者就要去支付医疗费用或者进一步检查的费用,但是这样就有可能犯第一类错误,即没有差异但得到了显著的结果,导致患者多花冤枉钱去治疗一个本来没有的疾病;反之,如果医生的判断标准严格一些,医生会认为这些证据不足以支持病人有一个肿瘤,但这样就容易犯第二类错误,即本身有差异但结果并不显著,导致患者有病但是没有及时治疗。现实中,因为后者的后果更严重,所以医生更倾向于采用前者的判断标准(即宽松一些),所以大众的直观感觉就是只要去医院就一定会“被生病”,这总比有病没查出来要强一些。
实际上,假设检验诞生至今一直被批评,直到农业大师费歇尔去世,不管奈曼说什么,费歇尔都批评他。但是下一讲,戈赛特的一位“校友”科恩,从根本上抨击了假设检验和p值本身。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/163794.html