作者:夏雨骄阳
审核:阿X
来源:SPASS学堂(ID:spss2333)
文章的作者是我们上海CPDA第26期学员陈联,感谢他的分享!
生活中会遇到各种各样的问题,有些问题的解答是建立在一定量的数据基础上的,这就使数据分析有了用武之地。或许你会问,数据分析和我有什么关系呢,我又不是数据分析师。那么我来告诉你,随着互联网的蓬勃发展,数据以及数据分析在我们的企业经营、管理中已经扮演着越来越为重要的角色;在我们的日常生活中,数据分析也能为我们解决一些实际的问题。不相信?那就上栗子吧。
电力部门最近有些苦恼,相当部分的用户在互联网上吐槽电费负担重,戏称电力部门是“电老虎”。管理部门开会研究后,考虑是否可以通过实行实施分时段定价的措施,来适当平衡供电与用电的矛盾。
试想一下,如果实施分时段定价,一方面可以减轻用电高峰时电力部门供电的压力,另一方面也可以鼓励居民在非用电高峰时多用电,同时居民也能得到支付较少的用电费用的好处。那么现实情况与所想的是否一致呢?
为此,电力部门专门做了不同高峰时间范围的用电满意度的市场调查,高峰时间范围选用3小时、5小时、7小时和9小时。在随机确定的受试对象中,要求他们对不同高峰时间范围的用电满意度进行评分,评分值从60~100分,分值越高说明满意度越高,分值越低说明满意度越低。
接下来,根据市场调查的这些数据,电力部门来决策是否需要实施分时段定价。怎么根据数据来做决策呢,这就是数据分析的本领啦。试想一下,如果不管什么高峰时间范围,用户的满意度都一样,那么果断地不需要分时段定价;反之,则需要。好了,问题就转化为,不同高峰时间范围,用户的满意度是否一致,这会我们就要用上单因素方差分析来帮助我们判断啦。
(注:本文写的单因素方差分析指的是单因素完全随机方差分析,简称为单因素方差分析)
哇哦,单因素方差分析是神马,对于我这个数据分析小白来说好高深。莫慌,往下看,你会发现它其实很简单!
1. 相关概念
作为观测的对象(亩产量、销量)
人为可控的因素(施肥量、价格)
人为不可控的因素(气候、抽样误差)
2. 核心思想
3. 前提条件
可能你会说,那么好的,我们直接就来做单因素方差分析吧。稍等,单因素方差分析还要几个必要的前提条件,我们来看下。
条件一,各样本必须是相互独立的随机样本;
条件二,各样本来自正态分布总体;
条件三,各总体方差相等,即方差齐性。
条件一可以用T检验,条件二都可以通过P-P图、Q-Q图或者茎叶图等检验,可是条件三如何检验呢,往下看。
四、 单因素方差分析实战
Step1: 在SPSS中打开数据文件“满意度调查数据.sav”,如图1.1。
图1.1
Step2:单击【分析】菜单,选择【比较均值】菜单,选择【单因素ANOVA】菜单,弹出对话框,并选择因变量和因子,如图1.2。
图1.2
Step3:单击【两两比较】选项卡,假定方差齐性中选择LSD(L),SNK(S)。
这里有很多种检验方法,其中LSD法是比较常用的方法,它的敏感度最高,换成直白的话就是要是LSD法都没有检验出有差别,恐怕真的没差别了。SNK法,是应用最广泛的一种两两比较方法,能帮助我们划分子集,结果比较直观。未假定方差齐性中选择Tamhanes T2(M),这也是相对来说应用较为广泛的一种方法,如图1.3。
图1.3
Step4:单击【选项】选项卡,选择描述性(D),方差同质性检验(H),均值图(M),如图1.4。
图1.4
选完之后,回到图1.2的对话框,点击确定;酱紫,方差分析中最简单的单因素方差分析,到此我们就做完了。有没有觉得其实很简单,有木有!别急,还没完,下面我们来看下结果解读。
首先,输出结果一,描述性统计,如图1.5。
图1.5
从图1.5中我们可以看出,在4个高峰时间范围下各有18个样本。
3个小时的高峰时间的平均用户满意度为74.61。
5个小时的高峰时间的平均用户满意度为77.06。
7个小时的高峰时间的平均用户满意度为84.72。
9个小时的高峰时间的平均用户满意度为84.94。
输出结果二,方差齐性检验,如图1.6。
图1.6
图1.6是单因素方差分析的齐性检验结果,这就是前面单因素方差分析的前提条件中的条件三的检验,SPSS已经帮助我们做出结果了,好给力!结果中可以看出,Levene统计量的sig值为0.293,大于显著性水平0.05。
因此总体方差无显著性差异既总体方差齐性,满足单因素方差分析的前提条件。
输出结果三,单因素方差分析表,如图1.7。
图1.7
图1.7为单因素方差分析表,可以看出方差检验统计量F=7.218,相应的sig值等于0.000,小于显著性0.05,因此我们认为不同的高峰时间范围有显著性差异。这就说明,4个高峰时间范围中至少有一个组与其它三组有明显的区别,也有可能4个高峰时间范围都存在显著差别。具体的差异情况如何呢,往下看。
输出结果四,多重比较结果表,如图1.8。
图1.8
图1.8输出的是LSD法、Tamhane法多重比较检验的结果,因为前面我们检验出来的结果是方差齐性,所以我们只要看LSD法的结果。如果不齐性的话,我们就要看Tamhane法的结果。
图1.8中,我们可以看出高峰时间范围3小时与高峰时间范围5小时的sig值为0.391,大于显著性水平0.05,即高峰时间范围为3个小时与高峰时间范围为5个小时之间不存在显著差别;高峰时间范围3小时与高峰时间范围7、9小时的sig值为0.010,小于显著性水平0.05,即高峰时间范围为3个小时与高峰时间范围为7小时、9小时之间存在显著差别;
以此类推,得出高峰时间范围5小时与高峰时间范围7、9小时存在显著差别;高峰时间范围7小时与高峰时间范围9小时不存在显著差别。
输出结果五,SNK方法划分的同类子集,如图1.9。
图1.9
S-K-N方法划分的子集可以看出,高峰时间段为3小时与5小时之间不存在显著差别,高峰时间段7小时与9小时之间不存在显著差别。高峰时间段3、5小时分别与7小时、9小时之间存在显著差别。这个结果和LSD法得到的结果是一致的。
你可能马上会问,如果不一致怎么办?如果不一致,那么我们就根据实际情况来酌情选用多重比较的结果。
输出结果六,均值图,如图1.10。
图1.10
从图1.10中,可以看出高峰时间范围为9小时的均值最高,高峰时间范围的为7小时比较理想,而高峰时间范围为5小时和3小时最低。
好了,文章写到这里,电力部门的决策也出炉了,分时段定价还是有必要的。那么,具体方案如何来做呢,莫急,下个回合再来教大家!