forked from Jaanai-Lu/Statistics
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path哑变量(Y)
32 lines (30 loc) · 2.64 KB
/
哑变量(Y)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
为什么哑变量设置后,总的有意义,而里面比较却无意义?
缘起
回归时,对无序5分类进行哑变量设置,设置了4个哑变量,分析结果显示总的哑变量是有意义的,而里面4个哑变量却都没有统计学意义。
原因辨析
1.在选择参照设置哑变量的时候,参照选择不正确。如果选择特征明显的作为参照,很可能剩下的就没有统计学意义。
解决办法:
进行最优尺度回归,然后再选择合适的参照。
补充:
最优尺度回归分析,英文简称CATREG,也称分类回归。
主要用于解决分类变量,比如性别变量,男女没有大小、顺序、趋势区分,若直接纳入线性回归模型,则可能会失去自身的意义。
最优尺度回归擅长将分类变量不同取值进行量化处理,从而将分类变量转换为数值型进行统计分析。
可以说有了最优尺度回归方法,将大大提高分类变量数据的处理能力,突破分类变量对分析模型选择的限制,扩大回归分析的应用能力。
案例分析:
不同地区个体月收入的影响因子数据案例
数据结果:本次的数据呈现的结果是共计1072份,其中缺失为146份,实际有效为926份。
数据分析执行analyze/regression/optimal scaling(CATREG),
并在数据置入dependent variable的时候将收入置为“numeric”;
将城市置为“nominal”;将性别置为“nominal”;
将“学历”置为“ordinal”;将职业置为“nominal”;将婚姻状况置为“nominal”即可。
模型概要: 调整后的R方值为0.30,还是比较小,一般情况下,越靠近1,结果越好。
回归系数及显著性分析:
这里我们主要看显著性:
家庭月收入和城市所在地显著相关(F=7.126,P=0.001);家庭月收入和学历显著相关(F=200.961,P=0.000);
家庭月收入和职业显著相关(F=79.718,P=0.000);家庭月收入和婚姻状况显著相关(F=18.632,P=0.000);
家庭月收入和性别无显著相关性,其中P>0.05;
相关性和容差分析
从图中的重要性一栏中,可以看到,在月收入的影响中,学历是最重要的,职业次之,剩下依次为婚姻状况,城市和性别。
2.样本量是否合理,对于多因素回归分析,一般是10EPV原则。
3.你选择作为参照的那组(亚组)的样本量是否够大,只有够大,得到的结果才会稳健。
4.统计学的悖论,并不是所有统计分析的结果都是对的,统计结果的正确与否,要看设计是否合理,受试对象选择是否正确,数据获取是否可靠,分析方法是否正确等等。