用R语言做数据分析——卡方检验的功效分析

#**卡方检验**。卡方检验常常用来评价两个类别型变量的关系。其中,w是效应值,N是总样本大小,df

卡方检验

卡方检验常常用来评价两个类别型变量的关系。典型的零假设是变量之间福利,备择假设是不独立。pwr.chisq.test()函数可以评估卡方检验的功效、效应值和所需样本大小。格式为:

pwr.chisq.test(w=, N=, df=, sig.level=, power=)

其中,w是效应值,N是总样本大小,df是自由度。此处,效应值w如下定义:

用R语言做数据分析——卡方检验的功效分析

此处从1到m进行求和,m指的是列联表中单元格的数目,函数ES.w2(P)可以计算双因素列联表中备择假设的小颖子,P是一个假设的双因素概率表。

例子:我们需要研究人中与工作晋升的关系,预期样本中70%是白种人,10%是美国黑人,20%是西班牙裔人。而且,我们认为相比30%的美国黑人和50%的西班牙裔人,60%的白种人更容易晋升。研究假设的晋升概率如下图所示:

用R语言做数据分析——卡方检验的功效分析

从表中可以看出,预期总人数的42%是晋升的白种人(0.42=0.70*0.60),总人数的7%是未晋升的美国黑人(0.07=0.10*0.70)。让我们取0.05的显著水平和0.90的预期功效水平。双因素列联表的自由度为(r-1)(c-1),r是行数,c是列数,分析代码如下:

> library(pwr)

> data<-c(.42,.28,.03,.07,.10,.10)

> prob<-matrix(data,byrow = TRUE,nrow = 3)

> ES.w2(prob)

[1] 0.1853198

> pwr.chisq.test(w=.1853, df=2, sig.level = .05, power = .9)

Chi squared power calculation

w = 0.1853

N = 368.5317

df = 2

sig.level = 0.05

power = 0.9

NOTE: N is the number of observations

结果表明,在既定的效应值、功效水平和显著性水平下,该研究需要369个受试者才能检验人中与工作晋升的关系。

选择合适的效应值

功效分析中,预期效应值时最难决定的参数。它通常需要我们对主题有一定的了解,并有相应的测量考验。例如,过去研究中的数据可以用来计算效应值,这能为后面深层次的研究提供一些参考。

但是当面对全新的研究情况,没有任何过去的经验可借鉴时,该怎么办呢?Cohen效应值基准为我们提供了一个很好的参考,这套基准可为各种统计经验划分为小、中、大三种效应值,基准值如下图所示:

用R语言做数据分析——卡方检验的功效分析

当我们对研究的效应值一无所知时,这个表可以给我们提供一些指引。例如,我们想在0.05的显著性水平下,对5个组、每组25个受试者的设计进行单因素方差分析,那么拒绝错误零假设的概率有多大呢?

> pwr.anova.test(k=5, n=25, f=.10,sig.level = .05)

Balanced one-way analysis of variance power calculation

k = 5

n = 25

f = 0.1

sig.level = 0.05

power = 0.1180955

NOTE: n is number in each group

> pwr.anova.test(k=5, n=25, f=.25,sig.level = .05)

Balanced one-way analysis of variance power calculation

k = 5

n = 25

f = 0.25

sig.level = 0.05

power = 0.5738

NOTE: n is number in each group

> pwr.anova.test(k=5, n=25, f=.40,sig.level = .05)

Balanced one-way analysis of variance power calculation

k = 5

n = 25

f = 0.4

sig.level = 0.05

power = 0.9569163

NOTE: n is number in each group

由以上结果可得出结论:在给定样本大小的限制下,在大效应值时我们才可能发现要研究的效应。

另外,我们还需要牢记Cohen的基准值仅仅是根据许多社科类研究得出的一般性建议,对于特殊的研究领域可能并不适用。其他可选择的方法是改变研究参数,记录其对诸如样本大小和功效等方面的营销。仍然以五个分组的单因素方差分析为例,计算为检测一系列效应值所需的样本大小:

> es<-seq(.1,.5,.01)

> nes <- length(es)

> samsize<-NULL

> for(i in 1:nes){

+ result<-pwr.anova.test(k=5,f=es[i],sig.level = .05,power = .9)

+ samsize[i]<-ceiling(result$n)

+ }

> plot(samsize,es,type = “l”, lwd=2,col=”red”,ylab = “Effect Size”, xlab = “Sample Size (per cell)”, main=”one way ANOVA with Power=.90 and Alpha=.05″)

用R语言做数据分析——卡方检验的功效分析

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/84742.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信