假设检验中P值那些事

假设检验中P值那些事对于这个无法解释的"超越",他计算了一个叫做"P值"的东西,以确定这个"超越"是真实

大家好,欢迎来到IT知识分享网。

假设检验中P值那些事

作模型的时候经常会用到假设检验,经常会遇到p-value这样的值,今天我们来看一下P值到底是什么?

P值和假设检验的历史

提起P值就离不开假设检验,P值得历史可以追溯到1770年,数学家拉普拉斯在处理50万左右的生育数据时,发现男性的生育率超过女性,对于这个无法解释的”超越”,他计算了一个叫做 “P值”的东西,以确定这个”超越”是真实的

很多统计学家误以为关于P值的正式文献是Fisher发表的,其实不然,最早在文献中正式阐述P值及其计算的,是统计学家Karl Pearson,你可能不了解他,但是他的Pearson卡方检验你一定知道,这篇关于卡方检验的文章当时被发表在《哲学杂志》上,文章中一同被介绍的,还有一个被叫做”P值”的

Fisher作为一代假设检验理论的创立者,在假设检验中首先提出P值的概念。P值能风靡学术界这么多年,Fisher是第一推手,被他推动的除了P值,还有被称为”费雪学派”(Fisherian)的假设检验思想。简单介绍下他的思想:

如果我们想要检验一个样本是否来自某个分布已知的总体,首先要建立一个”原假设”(null hypothesis),比如,下图的例子我们假设该样本来自正态总体N(m0,σ),那么原假设为:

H0:m=m0

但实际上我们得到的样本均值不是m0,而是 ,那么Fisher他老人家当时的想法是:在一个样本均值为m0的正态总体中,抽样得到这个均值为的样本的几率会有多大?我要是能计算出这个概率,就知道”这个样本来自该总体”这件事有多靠谱了,如果概率太小,就认为是不靠谱的事情,那么就可以认定这个假设是错的。这就是假设检验里的”小概率事件原理”,这个概率就是后来风靡学术界的”P值”,一般认为概率小于5%,就是不靠谱的事情,则需要拒绝原假设。

到此为止,Fisher大神只字未提”备择假设”,也从没说任何关于”接受”某个假设的事情,在Fisher的检验哲学里,

检验是基于无限总体中抽出的一个(注意是一个)样本;

显著性检验的基础是基于原假设而得出的假想概率,这些检验不能导出任何关于真实世界的概率论断。

因此,费雪以及他的P值检验思想,从来没有涉及到”备择假设”的概念,没有被认为可以用来证明某个假设是对的。

Neyman-Pearson认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率。

因此提出了另一个重要的检验思想,也就是后来流行的”备择假设”的概念即Neyman-Pearson(以下简称N-P)检验思想。N-P学派发源于费雪的思想,但却与之不太一样,他们两派相互争论了很多年。相比较于Fisher学派,Neyman他们主要有三个不同:

(1) 引入备择假设

Neyman本人曾说,”接受一个假设H,仅仅意味着采用决策A要比决策B好,并不能说明我们必须要相信假设H就是对的。”

(2) 引入两种错误:第一类错误和第二类错误

第一类错误是指拒绝了一个正确的原假设(α),第二类错误是指接受了一个错误的原假设(β);

Power=1-β,被称为检验效力,它代表着拒绝一个错误假设的概率;

N-P的检验思想是,控制第一类错误(一般事先给定),使得第二类错误的值越小越好,即power越大越好。

后世的许多统计学家错误的将两个方法进行了混合,衍生出这样的判别标准,即:

用p<α作为判断标准,以决定接受原假设还是备择假设

如Gibbons说:”P值与古典方法(即Neyman-Pearson)的关系是,如果p<=α,我们就要拒绝H0,如果p>α,我们就要接受H0。”

P值到底是什么?

P值是原假设为真时出现结果的概率,

假设A和B一起比赛篮球,我们假设A的技术比B的好,但是比赛1000场,A却输了800场,那么此时产生这样的结果的概率P可能是0.0005,也就是说,我们根据结果判断,原假设A的技术比B好的概率是p=0.0005,这是非常小的小概率事件,几乎是不可能发生的,结果却发生了,那么我们就应该推翻原假设的结论。

简单来说,P值越小,原假设有问题的可能性越大,你的假设就越可能成立。若P=0.05,则这时拒绝原假设,有5%的可能性你“冤枉了”正确的原假设;若P=0.01,那么拒绝原假设你只有1%的可能是错的。

P值小到什么时候才能拒绝零假设又被学界认可?这个一刀切的门槛就是显著性阈值,完全人为设定。目前这个学界认可的门槛高度是0.05,即当p值小于0.05时可以说实验结果统计学上显著。

P值危机

P值方法是广泛使用的统计手段,但因其自身的缺陷饱受争议。学界对于p值的讨论一直很热烈,有一批科学家就认为,由p值小于0.05推出的结论并不如人们想象中的那么靠谱,需要降低实验中使用的显著性阈值。如今更是被诸多统计学大牛指出,P值远没有众多科学者想象的那么可靠,显然它在统计学的大佬地位已经岌岌可危。

美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。根据该刊的声明,其主要原因是:”p值本身无法提供支持相关模式或假说之证据。”

假设检验中P值那些事

罗斯福大学的经济学家史蒂芬说,”P值没有起到人们期望的作用,因为它压根就不可能起到这个作用。”因为P值都是用来拒绝原假设的,从来没有被证明可以用来接受某个假设。

解决之道

面对”P值至上”的种种恶果,统计学家们给出了其他的解决方法,

避免使用”显著”或”不显著”来进行判断。如心理学家Cumming建议,研究者应当给出置信区间和power,以让读者明白研究结果的靠谱程度。

使用贝叶斯等决策方法。下图是贝叶斯的判断准则,没有P值的参与。

假设检验中P值那些事

对同一个数据使用多种方法进行分析。结果越是不同,就越有可能出现重大的发现。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/59102.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信