处于大数据时代,应该具备哪些思维?


对于身处大数据时代的我们来说,统计学越来走近我们,当我们在思考一个问题时,要尽量避免因为自己的无知,提出一些低级的问题来。譬如一些极其低级的,不符合统计学常识的错误。具体有哪些错误,后面我会提到。如果提问者懂一些统计学的常识,很多问题根本就不应该被提出来。要避免犯蠢,提出合理的科学的问题,就应该懂一些基本的统计常识。以下内容,学过数学 / 统计学 / 计量经济学的同学,应该知道我在说什么。如果你不知道,那请你回去面壁思过一下。

样本偏差

人们习惯通过很少的观察值,就得出结论。这样的结论,往往就存在样本不足导致的偏差。

比如,你说吸烟有害健康,劝身边人戒烟。烟民们常用的借口是这样的:

你看隔壁王大爷,都九十岁了,抽烟抽了一辈子,照样健健康康的。张二蛋,烟酒不沾,三十岁就归了西。所以呀,抽烟有害健康,都是扯淡骗人的!

比如,有人跟踪过每年的高考状元后来的职业发展路径,最终发现这些状元,绝大多数并没有成为人中龙凤,国之栋梁,于是他们得出结论:

高考状元最终将走向平庸,高考对筛选人才并没什么卵用!

再比如,几个清北毕业的人,上知乎回答了个问题,说自己清北毕业,也买不起学区房,甚至也在北京留不下来,于是就有人得出结论:

清北的学历不如学区房值钱!

以上的例子,统统犯了小样本偏差的统计错误。换句话说,考察的样本太少,根本不可能得出可靠的结论。

看吸烟是否有害健康,应该看的是整个烟民群体和非烟民群体的比较,光一个王大爷和张二蛋怎么能得出结论。

高考状元的容量加起来不过几百人,但非状元人数上千万,几千万人当中出现马云马化腾,当然更正常。

说清北毕业买不起房的,也只是发声的少数人,而那些闷声发大财的清北人,看到这样的结论,恐怕只会默默地骂一句 SB。

说到样本偏差,就必须提到有名的「红球实验」。

假设有两个盒子:A 和 B.

A 盒:2/3 的红球,1/3 的蓝球。

B 盒:2/3 的蓝球,1/3 的红球。

现在我们把两个盒子遮起来,从中随机抽取小球出来。换句话说,这个时候,你不知道哪个是 A 哪个是 B,只知道盒子 1 和盒子 2。

我们从盒子 1 当中抽取了 4 个红球和 1 个蓝球,一共 5 个。从盒子 2 当中,抽取了 20 个红球,10 个蓝球,一共 30 个。也即是:

盒子 1:4 个红球,1 个蓝球,共 5 个。

盒子 2:20 个红球,10 个蓝球,共 30 个。

现在问,哪个盒子更有可能是 A 盒,是 1 还是 2?

多数人的答案是 1。因为 1 当中红球的概率是 80%,而 2 当中只有 67%。A 盒当中的红球概率更高,所以 1 是 A 盒。

学过概率论的同学应该马上反应出来,这是一个典型的条件概率问题,用贝叶斯公式可以很容易计算:

P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.

P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.

看不懂公式的同学可以略过,你需要记住一点即可:

统计推断,样本量越大,越可靠。基于小样本的结论,往往都存在问题。

以后不要再很蠢地说,你看,名校毕业的

但答案恰恰相反,盒子 2 才更有可能是 A 盒。因为在更多的样本量下,它保证了红球的概率远高于蓝球。

也在北京买不起房,所以学历没什么卵用。

相关性

混淆相关和因果,不能建立多元相关思维模型,简直是人们犯蠢的重灾区!

因果的意思是,A 的发生必然会导致 B,B 的发生必然以 A 的发生为前提。相关则不一定,仅仅可能是 A,B 同时发生了。

比如暴饮暴食导致胃痛,就是一种因果关系。吃太多胃承受不了,必然会痛。胃之所以会痛,就是因为你吃了太多东西进去 (控制其他变量的前提下)。

但名校毕业和赚很多钱,这就不是因果关系。这只是一种相关关系,而且是一种多元的相关关系。

换句话说,赚钱这个事实,不仅和学校学历相关,还和很多其他因素相关,比如长相、行业、冒险精神等等。

现在明白我为什么说上面那些问题很蠢了吧。谁告诉你清北毕业就一定可以去投行? 同理,谁告诉你,哈佛的学生就一定比咪蒙赚钱赚得多?

清北毕业和去投行,只是相关性,且只是相关因子当中的一个,同理,哈佛毕业和赚钱多,也是这个道理。

如果把一个结果称为 Y,诸多和它相关的因素称为 X,那么 Y 和 X 的关系应该是:Y=AX.

其中 A=[a0,a1,a2...an], X=[x0,x1,x2…xn]’

以上是一个最基本的多元相关模型。比如,赚钱是 Y,那它对应的 X,包括了学历、起始资本 (家庭背景)、努力程度、长相,等等。

如果以多元相关模型来思考问题,根本就不可能提出为什么一个哈佛的还不如咪蒙赚得多这种愚蠢的问题。

明白了这一点,你也不会再提凭什么奶茶长得好看就可以搞定东哥,为什么美联储加息了股票反而上涨,名校毕业的不如技校毕业的赚得多,这一类愚蠢的问题了。

简单来说,记住一点:事情的发生,往往都是一个复杂系统里,多因素共同作用的结果。

凡事都尽量避免用单因素模型去解释。这是避免你变得很蠢的重要思维法宝。

控制变量

控制变量的意思是,控制了这个因素,来看其他因素对事物发生的影响。最直观的表达就是 “假设其他条件不变的情况下”,这种假设,就是很典型的一种控制变量的假设。

回到我们之前讨论的名校毕业挣钱不多的问题,名校毕业照样买不起学区房,很多人据此得出结论:

名校也没什么卵用,甚至上大学也没什么卵用,照样买不起房,还不如王小二开个煎饼摊子挣得多。

这个推理最大的问题就是控制变量的不可比。

你在对比名校毕业生和开早餐铺子的王小二时,隐含了一个极为重要的有关控制变量的假设:

除去学历这个因素,其他条件都是一样,且不变的。

但很显然,一个清北毕业生和没上过大学的王小二,除去学历的不同,在其他方面,也就是控制变量方面,也存在巨大的差异!

换个思路,不用横向对比,纵向来看,假设其他条件不变的情况下,一个清北毕业生,没有清北的学历,他会过得更好还是更惨?

这样的比较才是有意义的。

同理,也只有比较具有类似家庭背景,长相水平,努力程度的清北毕业生和一般学校甚至没上过大学的人,他们谁挣钱多,这样的比较才是有意义的。

英文当中有个很好的表达叫 Apple to Apple,就是比较对象要要一致。可惜我们大部分人做的都是 Pear to Apple 这样的比较,毫无意义。

再说一遍,我们考察单一变量对结果的影响时,一定要保持控制变量的不变且可比。不然这样比较得出的结论,毫无意义。

你不能因为天天撩妹的王思聪,比天天工作十六小时的投行民工,钱更多,就据此否认努力工作没有用。你也不能因为同学有个好爸爸,就否认平民家庭出身的人奋斗没有意义。

在考察努力这一变量对成功的影响上,你和王思聪的 “控制变量相同” 的假设并不成立。

反过来,就你自己而言,控制其他变量不变,你不努力和努力的结果差异,一下子就会清晰起来。这才是思考问题的正确方式。

不少反鸡汤人士认为,努力没什么用,家庭出身决定一切,先天条件决定一切,时代大势决定一切,这些论点,统统都是愚蠢的,也是错误的,因为他们忽略了控制变量的因素。

系统思维

统计常识除了以上三点,还有很多。比如假设检验,样本和母体的关系,统计一类和二类错误,置信水平等等,文章里没办法一一讲述。

但我认为,弄清本文的三个基本常识,已经可以帮你避免很多愚蠢的错误。这些常识不是相互孤立的,在考察问题的过程当中,常常会同时运用到它们。

比如还是说名校毕业生买房的问题。

首先要问,是不是真的清北毕业生就买不起学区房,这个样本到底有多大? 是不是小样本偏差,或者幸存者偏差得出的这个结论?

其次我们要想,清北毕业生买不起学区房,是一件多么令人惊讶的事情吗? 当然不是,因为挣钱这个事情,本身并不只和学历相关,它还和很多其他因素相关。

也因此,名校毕业的同学,也不要总觉得自己有什么了不起,你得清晰地意识到,收入水平和你的教育程度,并非因果关系。意识到这一点,能让你认清真相,接受现实,并更好得在其他方面去努力。

最后,因为其他方面的因素,比如家庭出身,比如行业影响,即使名校毕业真的也买不起房,你就要因此感到沮丧和否定名校教育带给你的价值了吗? 当然不应该!

因为控制变量的思想告诉你,其他条件不变的情况下,你读不读名校,收入的差异还是非常显著的。

综合以上,我们在思考问题时,当尽量避免因为自己的无知,提出一些低级的问题来。

今天小编想和你聊聊的,是学好统计的现实好处。

第一,学会看问题,懂得数字的意义。

例如,新闻报道中经常说某市人均收入为 1 万元。每每出现这样的报道,就有很多网友惊呼自己被平均了。为什么会造成这样的认知错觉呢? 这是因为新闻报道并没有告诉我们数据的分布是什么样的。比方说,可能有 20% 的人掌握了 80% 的收入,余下 80% 的人掌握了总收入的 20%,那这 80% 的人肯定觉得自己被平均了。所以,学过统计的人,当看到这样的数字的时候,就会多问几个为什么,就能明白数字背后的真实含义了。

此外,如果你学了统计学的抽样原理,或许你会进一步质疑,这个人均收入是怎么算出来的。是统计了全市所有人口的收入数据,还是只抽取了一部分人的收入数据。如果是抽取了一部分人,是按照什么原则抽取的? 这些都会影响到数据的真实性与可信性。

第二,用数据说话,让你的说服力要爆表。

当你向领导汇报工作的时候。

新人甲是这么汇报的:

今年我们在华东市场一共投入了 100 万元推广费用。我们做了很多有影响力的活动,产生了良好的品牌效果。用户对我们的产品非常认可,在使用后很多都成为我们的忠诚的用户。我们在华东地区的市场占有率进一步提升。我希望明年能加大在这一地区的投入,以便产生更好的市场效果。

新人乙是这么汇报的:

今年我们在华东市场一共投入了 100 万元推广费用。其中,投放广告 50 万,落地活动宣传 30 万,促销样品 20 万。共带来 3 万新增用户,提升市场占有率 5 个百分点,预计在未来一年提升这一地区的销售额 500 万元。

如果你是领导,你会喜欢哪个汇报?

很显然,大部分人会选择后者。清晰的数据能传达清晰的信息。那些非常、很多、进一步写在公文里或许还可以,但是在市场汇报中,这种词汇简直就是一团浆糊。领导早晨在家里已经挨训了,你就不要给领导添堵啦。

第三,体验到一种与众不同的思维方式。

最近朋友圈流行两只大熊猫的萌对话,其中一只对另一只说,你看看我们,就知道这个世界非黑即白。另外一只大熊猫于是伸出了红色的舌头。这个笑话告诉我们,世界并非非黑即白。统计学的思维就是永远不肯定这个世界到底是什么样子的。统计学永远是讲概率的,就是可能性。庄子说,一尺之锤,日取其半,而万世不竭。这就是一种概率思维方式。所以,嗯,我喜欢宋冬野,他唱到:昨天晚上,我差一点就他妈地死了。他到底死没死啊。可能性,是最值得人玩味的。

第四,像佛那样懂因果,知报应。

统计学常常研究两个因素之间的关系,叫做因果关系。例如,你的学历对你收入的影响。统计学家可能会说,学历每提升一个层次,年收入将提高 1.2 万元。所以不要相信读书无用论,你要相信概率。如果你相信自己能成为比尔盖茨,那读书对你确实没意义,同样,这只是小概率事件,基本不会发生在你身上。
来源:中国统计网