假设检验之卡方检验

假设检验之卡方检验前面我们聊完了T检验和F检验,相信小伙伴已经有所了解了。前面的T检验和F检验属于参数检验的范畴,今天的卡方检验有点特别,他和那俩不一样,它属于非

大家好,欢迎来到IT知识分享网。

前面我们聊完了T检验和F检验,相信小伙伴已经有所了解了,今天我们来聊一下卡方检验,前面的T检验和F检验属于参数检验的范畴,今天的卡方检验有点特别,他和那俩不一样,它属于非参数检验。

参数和非参数检验

之前的T检验,F检验,相关分析,回归分析都是参数统计,即是在已知总体分布情况或者假定总体分布的条件下,对总体的均值、方差进行估计和检验。但是在实际问题中,非常可能无法获知获知不了解总体的分布类型,只是通过样本来检验关于总体分布的假设,这种检验方式就是非参数检验。非参数检验就是在总体不服从正态分布或者分布情况不明确,即不依赖总体分布的类型,用以检验数据是否来自同一总体假设的一类检验方法。

总得来说,在数理统计中,不考虑原来的总体分布进行估计和检验的方法统称为非参数方法。

我们之前聊了这么多连续变量的统计分析,那么对于计数资料该怎么办呢?这个时候非参数检验方法中的明星方法-卡方检验就闪亮登场了!

什么是卡方检验?

卡方检验,或称x2检验,是一种用途很广的计数资料的假设检验方法。χ2检验是基于χ2分布的一种假设检验,它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者卡尔·皮尔逊是一位历史上罕见的百科全书式的学者,研究领域涵盖了生物、历史、宗教、哲学、法律。

四格卡方检验

它可用于检验类别变量之间的独立性或确定关联性。比如检验吸烟和癌症是否有关联。

四格卡方检验和R*S卡方检验示交叉表中最常见的功能

举个栗子:

我们都知道吸烟有害健康,但是又说不出令人信服的理由,那么现在你可以通过卡方检验的数据来说服吸烟者了。

原假设:吸烟与患慢性气管炎相互独立

下图数据是由吸烟习惯和换慢性气管炎的数据而建立的,以此数据探讨吸烟与否与患气管炎的比例,说明吸烟与患慢性气管炎之间的关系

假设检验之卡方检验

Spss实现卡方检验:

1,先对数据预处理,通过加权个案,将count数据放入频率变量中,注:如果数据是以单个观测对象的形式,即每一行代表1个观测对象,则无需加权

2,选择(Analyze→Deive Statistics→Crosstabs)分析>描述统计>交叉表,将smoke作为行表里,result作为列变量;单击统计量选择’卡方’复选框,然后确定执行列联表分析

假设检验之卡方检验

最近没有使用spss,看书找到一个例子

Spss提供了五种卡方检验结果,皮尔逊卡方检验,近似量比卡方检验,线性卡方检验,Fisher精确检验,矫正卡方检验。

结果分析:

这么多检验结果,到底看哪一个?

1、总例数≥40,所有期望频数≥5,看Pearson Chi-Square结果;

2、总例数≥40,出现1个期望频数≥1且<5,χ2检验需进行连续性校正,这时以Continuity Correction结果为准;

3、总例数≥40,至少2个期望频数≥1且<5,看Fisher精确检验结果;

4、总例数<40或者出现期望频数<1,看Fisher精确检验结果。

SPSS也会友好地在表格下方的注释部分提示是否有理论频数小于5,以及最小的理论频数是多少,方便选择恰当的检验方法,如下方注释b:0单元格的期望频数小于5,最小期望值是22.14,注释b主要决定选择何种卡方检验的结果

期望频数小于5的cells(格子)比例不能超过20%,否则结果不可靠,此例中0单元格的期望频数小于5,证明实验成功,数据真实可靠,结果就是差别有统计学意义。

在此次试验中,我们应该选择第二个卡方检验的结果,就是矫正卡方检验,卡方统计量6.674,ASYMP.sig就是我们常说的P值P值为0.01,小于0.05,拒绝原假设,说明吸烟与患慢性支气管炎是相关的。

Python 卡方检验

对两个或两个以上因子彼此之间是否相互独立做检验时,就要用到卡方检验,Python中的列联表独立性检验,即chi2_contingency。

我们验证的是吸烟是否和患慢性气管炎有关,所以数据分两组,健康组(吸烟,不吸烟),患病组(吸烟,不吸烟),数据如下图:

假设检验之卡方检验

结果解读:

第一个值为卡方值(6.6736),第二个值为P值(0.009785<0.05),第三个值为自由度,第四个为与原数据数组同维度的对应理论值。

由于P值0.009785<0.05,所有拒绝吸烟与患病独立的原假设,说明吸烟与患慢性支气管炎是相关的。Python卡方检验结果和spss结果一样。

在python做数据分析的时候,其实卡方检验更多的是应用在了特征选择上。

python中scikit-learn中内置了chi2类做特征选择的卡方检验,之前做金融行业中的还款意愿预测和文本分类项目用过卡方值做特征选择

假设检验之卡方检验

返回各个特征对应的卡方检验值和P值

也可以使用SelectBest配合卡方检验来选择特征:

假设检验之卡方检验

注:python scikit-learn卡方检验只适用于分类

说了这么多卡方,我们看一下他的图形:

假设检验之卡方检验

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/52319.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信