SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)SPSS(八)logistic回归我们之前的线性回归也好、线性回归衍生方法也好、非线性回归也好,因变量的类型都是连续性的,假如因变量的类型是分类的呢?logistic回归针对的是二分类的因变量logistic回归基于线性回归模型发展而来线性回归研究的是连续性因变量与自变量之间的关系有的时候因变量为分类变量,需要研究该分类变量与一组自变量之间的关系以治疗效果为因变量,结局为治愈…

大家好,欢迎来到IT知识分享网。

SPSS(八)logistic回归

我们之前的线性回归也好、线性回归衍生方法也好、非线性回归也好,因变量的类型都是连续性的,假如因变量的类型是分类的呢?logistic回归针对的是二分类的因变量

logistic回归

  • 基于线性回归模型发展而来

线性回归研究的是连续性因变量与自变量之间的关系

  • 有的时候因变量为分类变量,需要研究该分类变量与一组自变量之间的关系

以治疗效果为因变量,结局为治愈/未治愈

如果使用新的宣传方式,决定戒烟的概率是否更高?

 

模型简介

平常的线性回归方程表达式如下

SPSS(八)logistic回归(图文+数据集)

假如我们也是用这种来预测发生概率,则其表达式为

SPSS(八)logistic回归(图文+数据集)

但是在现实情况中,发生率P为因变量,它与自变量之间通常不存在线性关系(一般是两边不敏感,中间敏感,比如收入与轿车拥有率),而且上面表达式不能保证在自变量的各种组合下,因变量的取值仍限制在0~1内,所以数学家们为了解决遇到的这两个问题,将想方设法想找到一种变量变换,能让上式的发生率限制在0~1内,而且两边不敏感,中间敏感,到最后找到了一种变换,将上式的因变量进行如下转换,就能解决我们遇到的问题

SPSS(八)logistic回归(图文+数据集)

所以上面的表达式可以写成

SPSS(八)logistic回归(图文+数据集)

α是常数项,表示自变量取值全为0时,比数(Y=1Y=0的概率之比)的自然对数值

Betalogistic回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起比数比(OR)自然对数值的变化量,当概率比较低时候,可以理解概率会上升为原来的几倍

为什么可以直接挂等号呢?当p取0时,趋于负无穷,p取1/2时为0,p取1时趋于正无穷,等式两边值域取值相等

当是上面这个公式和我们平常做回归有什么区别呢?

由于因变量为二分类,所以误差项服从二项分布,而不是正态分布,因此,常用的最小二乘法也不再适用,要用迭代方法估计

 

模型用途

 

案例:低出生体重儿影响因素

 HosmerLemeshow1989年研究了低出生体重婴儿的影响因素

  • 影响因素分析,求出哪些自变量对因变量发生概率有影响。并计算各自变量对因变量比数
  • 作为判别分析方法,来估计各种自变量组合条件下因变量各类别的发生概率,从而对结局进行预测。模型在结果上等价于判别分析

结果变量为是否娩出低出生体重儿(变量名为LOW1,低出生体重,即婴儿出生体重<2500克、0,非低出生体重)

考虑的影响(自变量)有:

  • 产妇妊娠前体重(lwt,磅)
  • 产妇年龄(age,岁)
  • 产妇在妊娠期间是否吸烟(smoke0=未吸、1=吸烟)
  • 本次妊娠前早产次数(ptl,次)
  • 是否患有高血压(ht0=未患、1=患病)
  • 子宫对按摩、催产素等刺激引起收缩的应激性(ui0=无、1=)
  • 妊娠前三个月社区医生随访次数(ftv,次)
  • 种族(race1=白人、2=黑人、3=其他民族)

 

(假如只研究是否吸烟对体重的影响,我们可以使用卡方检验,但是目前自变量这么多,卡方检验无能为力)

我们先来看一下卡方检验

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

从检验结果来看,显著性检验小于0.05,产妇在妊娠期间是否吸烟对低出生体重儿还是有影响的

SPSS(八)logistic回归(图文+数据集)

 

下面我们使用Logistic回归方法

数据集如下

SPSS(八)logistic回归(图文+数据集)

85	0	19	182	2	0	0	0	1	0	2523
86	0	33	155	3	0	0	0	0	3	2551
87	0	20	105	1	1	0	0	0	1	2557
88	0	21	108	1	1	0	0	1	2	2594
89	0	18	107	1	1	0	0	1	0	2600
91	0	21	124	3	0	0	0	0	0	2622
92	0	22	118	1	0	0	0	0	1	2637
93	0	17	103	3	0	0	0	0	1	2637
94	0	29	123	1	1	0	0	0	1	2663
95	0	26	113	1	1	0	0	0	0	2665
96	0	19	95	3	0	0	0	0	0	2722
97	0	19	150	3	0	0	0	0	1	2733
98	0	22	95	3	0	0	1	0	0	2750
99	0	30	107	3	0	1	0	1	2	2750
100	0	18	100	1	1	0	0	0	0	2769
101	0	18	100	1	1	0	0	0	0	2769
102	0	15	98	2	0	0	0	0	0	2778
103	0	25	118	1	1	0	0	0	3	2782
104	0	20	120	3	0	0	0	1	0	2807
105	0	28	120	1	1	0	0	0	1	2821
106	0	32	121	3	0	0	0	0	2	2835
107	0	31	100	1	0	0	0	1	3	2835
108	0	36	202	1	0	0	0	0	1	2836
109	0	28	120	3	0	0	0	0	0	2863
111	0	25	120	3	0	0	0	1	2	2877
112	0	28	167	1	0	0	0	0	0	2877
113	0	17	122	1	1	0	0	0	0	2906
114	0	29	150	1	0	0	0	0	2	2920
115	0	26	168	2	1	0	0	0	0	2920
116	0	17	113	2	0	0	0	0	1	2920
117	0	17	113	2	0	0	0	0	1	2920
118	0	24	90	1	1	1	0	0	1	2948
119	0	35	121	2	1	1	0	0	1	2948
120	0	25	155	1	0	0	0	0	1	2977
121	0	25	125	2	0	0	0	0	0	2977
123	0	29	140	1	1	0	0	0	2	2977
124	0	19	138	1	1	0	0	0	2	2977
125	0	27	124	1	1	0	0	0	0	2992
126	0	31	215	1	1	0	0	0	2	3005
127	0	33	109	1	1	0	0	0	1	3033
128	0	21	185	2	1	0	0	0	2	3042
129	0	19	189	1	0	0	0	0	2	3062
130	0	23	130	2	0	0	0	0	1	3062
131	0	21	160	1	0	0	0	0	0	3062
132	0	18	90	1	1	0	0	1	0	3076
133	0	18	90	1	1	0	0	1	0	3076
134	0	32	132	1	0	0	0	0	4	3080
135	0	19	132	3	0	0	0	0	0	3090
136	0	24	115	1	0	0	0	0	2	3090
137	0	22	85	3	1	0	0	0	0	3090
138	0	22	120	1	0	0	1	0	1	3100
139	0	23	128	3	0	0	0	0	0	3104
140	0	22	130	1	1	0	0	0	0	3132
141	0	30	95	1	1	0	0	0	2	3147
142	0	19	115	3	0	0	0	0	0	3175
143	0	16	110	3	0	0	0	0	0	3175
144	0	21	110	3	1	0	0	1	0	3203
145	0	30	153	3	0	0	0	0	0	3203
146	0	20	103	3	0	0	0	0	0	3203
147	0	17	119	3	0	0	0	0	0	3225
148	0	17	119	3	0	0	0	0	0	3225
149	0	23	119	3	0	0	0	0	2	3232
150	0	24	110	3	0	0	0	0	0	3232
151	0	28	140	1	0	0	0	0	0	3234
154	0	26	133	3	1	2	0	0	0	3260
155	0	20	169	3	0	1	0	1	1	3274
156	0	24	115	3	0	0	0	0	2	3274
159	0	28	250	3	1	0	0	0	6	3303
160	0	20	141	1	0	2	0	1	1	3317
161	0	22	158	2	0	1	0	0	2	3317
162	0	22	112	1	1	2	0	0	0	3317
163	0	31	150	3	1	0	0	0	2	3321
164	0	23	115	3	1	0	0	0	1	3331
166	0	16	112	2	0	0	0	0	0	3374
167	0	16	135	1	1	0	0	0	0	3374
168	0	18	229	2	0	0	0	0	0	3402
169	0	25	140	1	0	0	0	0	1	3416
170	0	32	134	1	1	1	0	0	4	3430
172	0	20	121	2	1	0	0	0	0	3444
173	0	23	190	1	0	0	0	0	0	3459
174	0	22	131	1	0	0	0	0	1	3460
175	0	32	170	1	0	0	0	0	0	3473
176	0	30	110	3	0	0	0	0	0	3475
177	0	20	127	3	0	0	0	0	0	3487
179	0	23	123	3	0	0	0	0	0	3544
180	0	17	120	3	1	0	0	0	0	3572
181	0	19	105	3	0	0	0	0	0	3572
182	0	23	130	1	0	0	0	0	0	3586
183	0	36	175	1	0	0	0	0	0	3600
184	0	22	125	1	0	0	0	0	1	3614
185	0	24	133	1	0	0	0	0	0	3614
186	0	21	134	3	0	0	0	0	2	3629
187	0	19	235	1	1	0	1	0	0	3629
188	0	25	95	1	1	3	0	1	0	3637
189	0	16	135	1	1	0	0	0	0	3643
190	0	29	135	1	0	0	0	0	1	3651
191	0	29	154	1	0	0	0	0	1	3651
192	0	19	147	1	1	0	0	0	0	3651
193	0	19	147	1	1	0	0	0	0	3651
195	0	30	137	1	0	0	0	0	1	3699
196	0	24	110	1	0	0	0	0	1	3728
197	0	19	184	1	1	0	1	0	0	3756
199	0	24	110	3	0	1	0	0	0	3770
200	0	23	110	1	0	0	0	0	1	3770
201	0	20	120	3	0	0	0	0	0	3770
202	0	25	241	2	0	0	1	0	0	3700
203	0	30	112	1	0	0	0	0	1	3799
204	0	22	169	1	0	0	0	0	0	3827
205	0	18	120	1	1	0	0	0	2	3860
206	0	16	170	2	0	0	0	0	4	3860
207	0	32	186	1	0	0	0	0	2	3860
208	0	18	120	3	0	0	0	0	1	3884
209	0	29	130	1	1	0	0	0	2	3884
210	0	33	117	1	0	0	0	1	1	3912
211	0	20	170	1	1	0	0	0	0	3940
212	0	28	134	3	0	0	0	0	1	3941
213	0	14	135	1	0	0	0	0	0	3941
214	0	28	130	3	0	0	0	0	0	3969
215	0	25	120	1	0	0	0	0	2	3983
216	0	16	95	3	0	0	0	0	1	3997
217	0	20	158	1	0	0	0	0	1	3997
218	0	26	160	3	0	0	0	0	0	4054
219	0	21	115	1	0	0	0	0	1	4054
220	0	22	129	1	0	0	0	0	0	4111
221	0	25	130	1	0	0	0	0	2	4153
222	0	31	120	1	0	0	0	0	2	4167
223	0	35	170	1	0	1	0	0	1	4174
224	0	19	120	1	1	0	0	0	0	4238
225	0	24	116	1	0	0	0	0	1	4593
226	0	45	123	1	0	0	0	0	1	4990
4	1	28	120	3	1	1	0	1	0	709
10	1	29	130	1	0	0	0	1	2	1021
11	1	34	187	2	1	0	1	0	0	1135
13	1	25	105	3	0	1	1	0	0	1330
15	1	25	85	3	0	0	0	1	0	1474
16	1	27	150	3	0	0	0	0	0	1588
17	1	27	150	3	0	0	0	0	0	1588
18	1	24	128	2	0	1	0	0	1	1701
19	1	24	132	3	0	0	1	0	0	1729
20	1	21	165	1	1	0	1	0	1	1790
22	1	32	105	1	1	0	0	0	0	1818
23	1	19	91	1	1	2	0	1	0	1885
24	1	25	115	3	0	0	0	0	0	1893
25	1	16	130	3	0	0	0	0	1	1899
26	1	25	92	1	1	0	0	0	0	1928
27	1	20	150	1	1	0	0	0	2	1928
28	1	21	200	2	0	0	0	1	2	1928
29	1	24	155	1	1	1	0	0	0	1926
30	1	21	103	3	0	0	0	0	0	1970
31	1	20	125	3	0	0	0	1	0	2055
32	1	25	89	3	0	2	0	0	1	2055
33	1	19	102	1	0	0	0	0	2	2082
34	1	19	112	1	1	0	0	1	0	2084
35	1	26	117	1	1	1	0	0	0	2084
36	1	24	138	1	0	0	0	0	0	2100
37	1	17	130	3	1	1	0	1	0	2125
40	1	20	120	2	1	0	0	0	3	2126
42	1	22	130	1	1	1	0	1	1	2187
43	1	27	130	2	0	0	0	1	0	2187
44	1	20	80	3	1	0	0	1	0	2211
45	1	17	110	1	1	0	0	0	0	2225
46	1	25	105	3	0	1	0	0	1	2240
47	1	20	109	3	0	0	0	0	0	2240
49	1	18	148	3	0	0	0	0	0	2282
50	1	18	110	2	1	1	0	0	0	2296
51	1	20	121	1	1	1	0	1	0	2296
52	1	21	100	3	0	1	0	0	4	2301
54	1	26	96	3	0	0	0	0	0	2325
56	1	31	102	1	1	1	0	0	1	2353
57	1	15	110	1	0	0	0	0	0	2353
59	1	23	187	2	1	0	0	0	1	2367
60	1	20	122	2	1	0	0	0	0	2381
61	1	24	105	2	1	0	0	0	0	2381
62	1	15	115	3	0	0	0	1	0	2381
63	1	23	120	3	0	0	0	0	0	2395
65	1	30	142	1	1	1	0	0	0	2410
67	1	22	130	1	1	0	0	0	1	2410
68	1	17	120	1	1	0	0	0	3	2414
69	1	23	110	1	1	1	0	0	0	2424
71	1	17	120	2	0	0	0	0	2	2438
75	1	26	154	3	0	1	1	0	1	2442
76	1	20	105	3	0	0	0	0	3	2450
77	1	26	190	1	1	0	0	0	0	2466
78	1	14	101	3	1	1	0	0	0	2466
79	1	28	95	1	1	0	0	0	2	2466
81	1	14	100	3	0	0	0	0	2	2495
82	1	23	94	3	1	0	0	0	0	2495
83	1	17	142	2	0	0	1	0	0	2495
84	1	21	130	1	1	0	1	0	3	2495

Logistic回归涉及到的检验

  • Walds检验(变量筛选):基于标准误估计值的单变量检验

没有考虑其他因素的综合作用,当因素间存在共线性时结果不可靠

故在筛选变量时,用Walds法应慎重

  • 似然比检验(模型比较):直接对两个模型进行的比较

模型较为复杂时,建议使用似然比检验进行变量的筛选工作,以及模型间优劣的比较

两模型-2对数似然值之差即为似然比统计量,自由度亦为两模型参数个数之

  • 比分检验(比分检验)

考虑在已有模型基础上引入新变量之后模型效果是否发生改变

 

建模,分析–回归–二元Logistic (二元代表因变量二分类)

SPSS(八)logistic回归(图文+数据集)

刚才我们说(假如只研究是否吸烟对体重的影响,我们可以使用卡方检验,但是目前自变量这么多,卡方检验无能为力),我们先看看,逻辑回归只研究是否吸烟对体重的影响

SPSS(八)logistic回归(图文+数据集)

谁是1,就研究自变量对这个变量的影响,反之假如为0的话,得出的结果正负值全反

SPSS(八)logistic回归(图文+数据集)

块0:起始块,只有常数项模型,也叫基线模型或无效模型

分类表就是模型预测的情况,下图可以看出划分点为0.5,预测模型全部预测成好人,预测准确率达68.8%,但是这很明显不是我们想要的模型,坏的全部预测成好的了

方程中的变量:Sig.<0.05,证明常数项不为0

不在方程中的变量(比分检验):把smoke这个变量纳入模型有没有效果,Sig.<0.05,证明纳入进来还是有效果的

SPSS(八)logistic回归(图文+数据集)

块1:有自变量的模型

模型系数的综合检验:变量的纳入模型与不纳入模型是否有区别,Sig.<0.05,证明有区别,卡方说明变量的加入下降了多少似然比统计量(下面会有介绍到似然比检验)

模型汇总(似然比检验)-2对数似然值衡量的是模型对数据的解释程度,模型的价值指标,越接近0越好,单独看是没有意义的,和其他模型比较才有价值

分类表:查看模型预测结果及切分点

方程中的变量(Walds检验):Sig.变量纳入模型对模型效果是否显著,Exp(B)称比数比,其他自变量取值保持不变时,该自变量取值增加一个单位引起比数比(OR)自然对数值的变化量,当概率比较低时候,可以理解概率会上升为原来的几倍

 

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

 

刚才只是考察低出生体重儿与是否吸烟的回归关系,我们现在把所有的二分类自变量和连续类型自变量放进去建模,为什么多分类自变量先不放进去?我们等下再说

分析–回归–二元Logistic

SPSS(八)logistic回归(图文+数据集)

结果解读

起始块一般没有没有什么变化,但是不在方程中的变量这表格有区别,总统计量显著性<0.05,证明把所有模型都纳入进来有意义,后续再去细看每一个自变量的Sig.进行挑选

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

块1:

方程中的变量:我们看到有一些变量不显著,Sig.>0.05,直接剔除掉吗?这样做的话存在潜在的危险,因为Walds检验,他没有考虑其他因素的综合作用,当因素间存在共线性时结果不可靠,故在筛选变量时,用Walds法应慎重

我们应该选用比分检验和似然检验来挑选

其他模块的结果解读前面已经讲解

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

 

我们知道变量的spss自动挑选有向前法、向后法以及逐步法,当然我们也可以自己手动挑选,毕竟spss自动挑选错误率可达30%

分析–回归–二元Logistic ,我们说过Wald方法不靠谱,最靠谱的方法为LR(似然比检验)或者条件(比分检验),LR(似然比检验)比较好,这里的向前指的是逐步法、向后指的是向后法

SPSS(八)logistic回归(图文+数据集)

我们选择向前:LR

SPSS(八)logistic回归(图文+数据集)

结果如下(块0不截图了,都是一样的)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

我们看到最终只选择变量lwt、ptl、ht,模型比数比为217.220

SPSS(八)logistic回归(图文+数据集)

 

假如我们使用向后:LR得到结果是什么样的呢?

SPSS(八)logistic回归(图文+数据集)

发现其选的变量有四个和向前不一样lwt、smoke、ptl、ht,模型比数比为214.440,遇到这种情况,我们应该多做几次实验或者自己手动挑选变量,假如最后结果还是不一致,用专家经验,smoke其实还是对结果有影响,所以我们选择向后:LR的结果。spss自动挑选的纳入和剔除相对应的Sig.标准是0.05和0.1,可以去调,如下图(选项–步进概率)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

 

哑变量编码

针对问题

  • 回归系数b表示其它自变量不变,x每改变一个单位时,所预测的y的平均变化量
  • x为连续性/二分类变量时这样没有问题
  • x为多分类变量时就不太合适了

无序多分类:民族,各族之间不存在大小问题

有序多分类:家庭收入分为高、中、低三档,它们之间的差距无法准确衡量

强行规定为等距显然可能引入更大的误差

以上这些情况时,我们就必须将原始的多分类变量转化为数个哑变量(Dummy Variable),每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义。

(注意:哑变量必须同进同出,否则含义可能改变)

 

举个例子:

O型是作为对比水平(基础水平),而哑变量V1V2V3分别代表了A型、B型、AB型和O型相比的系数

SPSS(八)logistic回归(图文+数据集)

 

我们的自变量里面有种族,是无须多分类的,所以我们选择其他种族为对比水平(基础水平)

SPSS(八)logistic回归(图文+数据集)

把种族选进来,点击分类,之后设置参考水平即可

SPSS(八)logistic回归(图文+数据集)

建模结果,模型的似然检验为206.110比之前的模型都要好,其选入的变量有lwt、smoke、ptl、ht、race

注意一下,我们查看哑变量对模型是否有显著性作用先看race总的检验结果为0.02有意义,才去细看里面的race(1)、race(2)

race(1)的比数比Exp(B)为0.392,说明白人相对于其他种族出现低出生体重为0.392倍

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

   SPSS(八)logistic回归(图文+数据集)

 

SPSS逻辑回归补充

  • 哑变量编码的问题

针对平常的(回归–线性)里面是不支持哑变量编码的,不像Logistic回归这样直接放入协变量点击分类就SPSS自己进行哑变量编码,(回归–线性)里面进行哑变量编码要自己手动动手或者写程序

由于方差分析其实本质上是和(线性–回归)是等价的,假如模型中自变量以分类变量为主的话,放入方差分析的固定因子,自变量会自接变成哑变量的形式

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

 

  • 交互作用

方差分析里面可以研究交互项对因变量的影响,Logistic回归也是支持的,我们先看看方差分析对应SPPS交互项里面操作

SPSS(八)logistic回归(图文+数据集)

Logistic回归也是支持交互作用的研究的,一次选中多个变量加进去

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

但是(线性–回归)不支持交互作用,假如想研究交互作用,我们可以自己手动做一个新变量,比如a*b作为新的自变量纳入模型,这么麻烦的原因是方差分析已经有这个功能了,方差分析本质上是和线性回归是等价的

 

  • SPSS Logistic回归其他好用功能

SPSS(八)logistic回归(图文+数据集)

 

分类图

SPSS(八)logistic回归(图文+数据集)

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/12767.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信