菜鸟也爱数据分析之SPSS篇 —单因素方差分析


作者:夏雨骄阳      
审核:阿X   

来源:SPASS学堂(ID:spss2333)


文章的作者是我们上海CPDA第26期学员陈联,感谢他的分享!

 

一、   前言

生活中会遇到各种各样的问题,有些问题的解答是建立在一定量的数据基础上的,这就使数据分析有了用武之地。或许你会问,数据分析和我有什么关系呢,我又不是数据分析。那么我来告诉你,随着互联网的蓬勃发展,数据以及数据分析在我们的企业经营、管理中已经扮演着越来越为重要的角色;在我们的日常生活中,数据分析也能为我们解决一些实际的问题。不相信?那就上栗子吧。

二、   栗子

电力部门最近有些苦恼,相当部分的用户在互联网上吐槽电费负担重,戏称电力部门是“电老虎”。管理部门开会研究后,考虑是否可以通过实行实施分时段定价的措施,来适当平衡供电与用电的矛盾。

试想一下,如果实施分时段定价,一方面可以减轻用电高峰时电力部门供电的压力,另一方面也可以鼓励居民在非用电高峰时多用电,同时居民也能得到支付较少的用电费用的好处。那么现实情况与所想的是否一致呢?

为此,电力部门专门做了不同高峰时间范围的用电满意度的市场调查,高峰时间范围选用3小时、5小时、7小时和9小时。在随机确定的受试对象中,要求他们对不同高峰时间范围的用电满意度进行评分,评分值从60~100分,分值越高说明满意度越高,分值越低说明满意度越低。

接下来,根据市场调查的这些数据,电力部门来决策是否需要实施分时段定价。怎么根据数据来做决策呢,这就是数据分析的本领啦。试想一下,如果不管什么高峰时间范围,用户的满意度都一样,那么果断地不需要分时段定价;反之,则需要。好了,问题就转化为,不同高峰时间范围,用户的满意度是否一致这会我们就要用上单因素方差分析来帮助我们判断啦。

(注:本文写的单因素方差分析指的是单因素完全随机方差分析,简称为单因素方差分析)

三、   小白理解单因素方差分析

哇哦,单因素方差分析是神马,对于我这个数据分析小白来说好高深。莫慌,往下看,你会发现它其实很简单!

1. 相关概念

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网   

作为观测的对象(亩产量、销量)

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

人为可控的因素(施肥量、价格)

 菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

人为不可控的因素(气候、抽样误差)

                            

2. 核心思想

 

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

3. 前提条件

可能你会说,那么好的,我们直接就来做单因素方差分析吧。稍等,单因素方差分析还要几个必要的前提条件,我们来看下。

条件一,各样本必须是相互独立的随机样本;

条件二,各样本来自正态分布总体;

条件三,各总体方差相等,即方差齐性。

条件一可以用T检验,条件二都可以通过P-P图、Q-Q图或者茎叶图等检验,可是条件三如何检验呢,往下看。

       四、   单因素方差分析实战

Step1:  在SPSS中打开数据文件“满意度调查数据.sav”,如图1.1。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

图1.1

Step2:单击【分析】菜单,选择【比较均值】菜单,选择【单因素ANOVA】菜单,弹出对话框,并选择因变量和因子,如图1.2。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

图1.2

Step3:单击【两两比较】选项卡,假定方差齐性中选择LSD(L),SNK(S)。

这里有很多种检验方法,其中LSD法是比较常用的方法,它的敏感度最高,换成直白的话就是要是LSD法都没有检验出有差别,恐怕真的没差别了。SNK法,是应用最广泛的一种两两比较方法,能帮助我们划分子集,结果比较直观。未假定方差齐性中选择Tamhanes T2(M),这也是相对来说应用较为广泛的一种方法,如图1.3。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

图1.3

Step4:单击【选项】选项卡,选择描述性(D),方差同质性检验(H),均值图(M),如图1.4。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

图1.4

选完之后,回到图1.2的对话框,点击确定;酱紫,方差分析中最简单的单因素方差分析,到此我们就做完了。有没有觉得其实很简单,有木有!别急,还没完,下面我们来看下结果解读。

五、   单因素方差分析结果解读

首先,输出结果一,描述性统计,如图1.5。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

                                                                图1.5

从图1.5中我们可以看出,在4个高峰时间范围下各有18个样本。

3个小时的高峰时间的平均用户满意度为74.61。

5个小时的高峰时间的平均用户满意度为77.06。

7个小时的高峰时间的平均用户满意度为84.72。

9个小时的高峰时间的平均用户满意度为84.94。

输出结果二,方差齐性检验,如图1.6。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

                            图1.6

图1.6是单因素方差分析的齐性检验结果,这就是前面单因素方差分析的前提条件中的条件三的检验,SPSS已经帮助我们做出结果了,好给力!结果中可以看出,Levene统计量的sig值为0.293,大于显著性水平0.05。

因此总体方差无显著性差异既总体方差齐性,满足单因素方差分析的前提条件。

输出结果三,单因素方差分析表,如图1.7。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

                                   图1.7

图1.7为单因素方差分析表,可以看出方差检验统计量F=7.218,相应的sig值等于0.000,小于显著性0.05,因此我们认为不同的高峰时间范围有显著性差异。这就说明,4个高峰时间范围中至少有一个组与其它三组有明显的区别,也有可能4个高峰时间范围都存在显著差别。具体的差异情况如何呢,往下看。

输出结果四,多重比较结果表,如图1.8。
菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

                                                                     图1.8

图1.8输出的是LSD法、Tamhane法多重比较检验的结果,因为前面我们检验出来的结果是方差齐性,所以我们只要看LSD法的结果。如果不齐性的话,我们就要看Tamhane法的结果。

图1.8中,我们可以看出高峰时间范围3小时与高峰时间范围5小时的sig值为0.391,大于显著性水平0.05,即高峰时间范围为3个小时与高峰时间范围为5个小时之间不存在显著差别;高峰时间范围3小时与高峰时间范围7、9小时的sig值为0.010,小于显著性水平0.05,即高峰时间范围为3个小时与高峰时间范围为7小时、9小时之间存在显著差别;

以此类推,得出高峰时间范围5小时与高峰时间范围7、9小时存在显著差别;高峰时间范围7小时与高峰时间范围9小时不存在显著差别。

输出结果五,SNK方法划分的同类子集,如图1.9。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

                                               图1.9

S-K-N方法划分的子集可以看出,高峰时间段为3小时与5小时之间不存在显著差别,高峰时间段7小时与9小时之间不存在显著差别。高峰时间段3、5小时分别与7小时、9小时之间存在显著差别。这个结果和LSD法得到的结果是一致的。

你可能马上会问,如果不一致怎么办?如果不一致,那么我们就根据实际情况来酌情选用多重比较的结果。

输出结果六,均值图,如图1.10。

菜鸟也爱数据分析之SPSS篇 —单因素方差分析_上海数据分析网

                                                                      图1.10

从图1.10中,可以看出高峰时间范围为9小时的均值最高,高峰时间范围的为7小时比较理想,而高峰时间范围为5小时和3小时最低。

好了,文章写到这里,电力部门的决策也出炉了,分时段定价还是有必要的。那么,具体方案如何来做呢,莫急,下个回合再来教大家!

CPDA课程海报