大家好，欢迎来到IT知识分享网。

作模型的时候经常会用到假设检验，经常会遇到p-value这样的值，今天我们来看一下P值到底是什么？

P值和假设检验的历史

提起P值就离不开假设检验，P值得历史可以追溯到1770年，数学家拉普拉斯在处理50万左右的生育数据时，发现男性的生育率超过女性，对于这个无法解释的”超越”，他计算了一个叫做 “P值”的东西，以确定这个”超越”是真实的

很多统计学家误以为关于P值的正式文献是Fisher发表的，其实不然，最早在文献中正式阐述P值及其计算的，是统计学家Karl Pearson，你可能不了解他，但是他的Pearson卡方检验你一定知道，这篇关于卡方检验的文章当时被发表在《哲学杂志》上，文章中一同被介绍的，还有一个被叫做”P值”的

Fisher作为一代假设检验理论的创立者，在假设检验中首先提出P值的概念。P值能风靡学术界这么多年，Fisher是第一推手，被他推动的除了P值，还有被称为”费雪学派”（Fisherian）的假设检验思想。简单介绍下他的思想：

如果我们想要检验一个样本是否来自某个分布已知的总体，首先要建立一个”原假设”（null hypothesis），比如，下图的例子我们假设该样本来自正态总体N(m0,σ)，那么原假设为：

H0：m=m0

但实际上我们得到的样本均值不是m0，而是，那么Fisher他老人家当时的想法是：在一个样本均值为m0的正态总体中，抽样得到这个均值为的样本的几率会有多大？我要是能计算出这个概率，就知道”这个样本来自该总体”这件事有多靠谱了，如果概率太小，就认为是不靠谱的事情，那么就可以认定这个假设是错的。这就是假设检验里的”小概率事件原理”，这个概率就是后来风靡学术界的”P值”，一般认为概率小于5%，就是不靠谱的事情，则需要拒绝原假设。

到此为止，Fisher大神只字未提”备择假设”，也从没说任何关于”接受”某个假设的事情，在Fisher的检验哲学里，

检验是基于无限总体中抽出的一个（注意是一个）样本；

显著性检验的基础是基于原假设而得出的假想概率，这些检验不能导出任何关于真实世界的概率论断。

因此，费雪以及他的P值检验思想，从来没有涉及到”备择假设”的概念，没有被认为可以用来证明某个假设是对的。

Neyman-Pearson认为假设检验是一种方法，决策者在不确定的条件下进行运作，利用这一方法可以在两种可能中作出明确的选择，而同时又要控制错误发生的概率。

因此提出了另一个重要的检验思想，也就是后来流行的”备择假设”的概念即Neyman-Pearson（以下简称N-P）检验思想。N-P学派发源于费雪的思想，但却与之不太一样，他们两派相互争论了很多年。相比较于Fisher学派，Neyman他们主要有三个不同：

（1）引入备择假设

Neyman本人曾说，”接受一个假设H，仅仅意味着采用决策A要比决策B好，并不能说明我们必须要相信假设H就是对的。”

（2）引入两种错误：第一类错误和第二类错误

第一类错误是指拒绝了一个正确的原假设（α），第二类错误是指接受了一个错误的原假设（β）；

Power=1-β,被称为检验效力，它代表着拒绝一个错误假设的概率；

N-P的检验思想是，控制第一类错误（一般事先给定），使得第二类错误的值越小越好，即power越大越好。

后世的许多统计学家错误的将两个方法进行了混合，衍生出这样的判别标准，即：

用p<α作为判断标准，以决定接受原假设还是备择假设

如Gibbons说：”P值与古典方法（即Neyman-Pearson）的关系是，如果p<=α，我们就要拒绝H0，如果p>α，我们就要接受H0。”

P值到底是什么？

P值是原假设为真时出现结果的概率，

假设A和B一起比赛篮球，我们假设A的技术比B的好，但是比赛1000场，A却输了800场，那么此时产生这样的结果的概率P可能是0.0005，也就是说，我们根据结果判断，原假设A的技术比B好的概率是p=0.0005，这是非常小的小概率事件，几乎是不可能发生的，结果却发生了，那么我们就应该推翻原假设的结论。

简单来说，P值越小，原假设有问题的可能性越大，你的假设就越可能成立。若P=0.05，则这时拒绝原假设，有5%的可能性你“冤枉了”正确的原假设；若P=0.01，那么拒绝原假设你只有1%的可能是错的。

P值小到什么时候才能拒绝零假设又被学界认可？这个一刀切的门槛就是显著性阈值，完全人为设定。目前这个学界认可的门槛高度是0.05，即当p值小于0.05时可以说实验结果统计学上显著。

P值危机

P值方法是广泛使用的统计手段，但因其自身的缺陷饱受争议。学界对于p值的讨论一直很热烈，有一批科学家就认为，由p值小于0.05推出的结论并不如人们想象中的那么靠谱，需要降低实验中使用的显著性阈值。如今更是被诸多统计学大牛指出，P值远没有众多科学者想象的那么可靠，显然它在统计学的大佬地位已经岌岌可危。

美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。根据该刊的声明，其主要原因是：”p值本身无法提供支持相关模式或假说之证据。”

罗斯福大学的经济学家史蒂芬说，”P值没有起到人们期望的作用，因为它压根就不可能起到这个作用。”因为P值都是用来拒绝原假设的，从来没有被证明可以用来接受某个假设。

解决之道

面对”P值至上”的种种恶果，统计学家们给出了其他的解决方法，

避免使用”显著”或”不显著”来进行判断。如心理学家Cumming建议，研究者应当给出置信区间和power，以让读者明白研究结果的靠谱程度。

使用贝叶斯等决策方法。下图是贝叶斯的判断准则，没有P值的参与。

对同一个数据使用多种方法进行分析。结果越是不同，就越有可能出现重大的发现。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/59102.html

假设检验中P值那些事

P值和假设检验的历史

P值到底是什么？

P值危机

解决之道

发表回复

假设检验中P值那些事

P值和假设检验的历史

P值到底是什么？

P值危机

解决之道

相关推荐

发表回复