大数据:大数据时代,你还继续只做一枚围观路人吗?
导语:前两年的云计算炒得热火朝天的,紧接着“
大数据”又突袭而来。仿佛一夜之间,各企业都纷纷改旗换帜,推起“
大数据”来了。
《
大数据时代》是本好书。很多IT知名人士也大力推荐。没看此书之前,对所谓
大数据的概念基本懵懂,觉得可能就是更多的数据,更细致的
数据分析与
数据挖掘。看过此书后,感觉到之前的想法有些肤浅,因为
大数据更多着眼于数据关联性,而非数据精确性;
大数据不仅仅是方法,更多的是思想方法。不过坦白讲,到底是数据的关联性更佳,还是数据的精确性更好,还真的需要时间来检验一下,至少从现在的
数据分析方法来论,更多的倾向于数据的精确性。看完此书,我思考了这些问题:
百度百科是这样定义的:
大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据的4V特点:Volume、Velocity、Variety、Veracity。
在我看来:数据海量,存储海量都是
大数据的基本原型吧。
规模巨大的数据未必是
大数据,需满足她的三个特点。以研究掷硬币概率的实验为例,当传统实验次数达到一定规模后就能帮助实验者分析正反面出现的概率,随着实验次数的增加,数据大量积累可能越来越支持这一结论,数据达到一定量,它的边际效应就出现了,数据继续增加对分析概率还有多少意义呢?按照现代概率学伯努利试验去带入函数计算就好了,这仅算是概率学或者是统计学吧。故
大数据不是因为单纯体积大而大,是因为杂而大,研究硬币正反面的概率如引入天文学、心理学、材料学、物理学等领域的数据而使之变大,进而研究关联关系(或因果关系,注:本书不认同因果关系的重要性),从而得出概率的分布,然而大量相关数据的引入,按照传统分析过程的时间是不可接受的,需利用高效计算资源,迅速把杂而大的处理结果呈现出来,并且实验者对结果的预期不能要求100%的精确。
大数据并不是数据本身,而是一种思维方式。
大数据的前提是海量的数据,然后从中查找出数据的关联性,通过专业化的处理,让其为企业创造价值。诸如电信、互联网应用这样海量用户的大企业,也是在应用
大数据的道路上拥有得天独厚的条件,那中小企业呢?销售订单数据?若非百年老店,估计数据也是少得可怜。同样,在公共事业类的政府机构,
大数据也许也能很好的发挥作用。
大数据是企业竞争力。是否所有的企业都以
大数据为竞争力呢?在中小企业中,或许会显示得小题大做。
当一波又一波的IT技术热潮源源不断地向我们铺面而来的时候,无论你是否做好了准备,你都要开始迎接它所给你带来的影响了。经过物联网,云计算的推波助澜下,
大数据开始登场了。但它到底给我们带来了什么呢?
1、预测未来。
书中以谷歌公司成功预测了未来可能发生流感的案例来表明,
大数据的应用,可以为我们的生活保驾护航。实质就是技术改变世界。
大数据吸引人的地方在于用“科学”的办法挑战了“预测学”,帮助人们发现未知,帮忙人们进行决策。本书作者强调“
大数据不是因果关系,而是相关关系,相关关系比因果关系更重要”。但是在我看来,
大数据应该是把看起来不相关的数据放到一起分析,找出某些跨领域的关联关系,进而找出因果关系,发现价值。作者引用了安德森的观点“现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具,而且只要数据足够,就能说明问题”。作者举了沃尔玛“尿布与啤酒”的故事,这也是大家熟知的一个
数据分析的故事,但是沃尔玛真的是这么做的吗?。一家大型的超市,如果为了这种所谓相关关系,所有商品用这种关联关系去摆放,将是多么混乱!顾客进去将难以区分食品在哪、生活用品在哪!这种关联关系可能更适合电子商务。本书用美国折扣零售店与怀孕预测来佐证他的这种关联观点的正确性,但恰恰是知道因果关系后商业价值才能更多的体现出来,未知因果关系前顾客的父亲生气并要求赔偿,知道因果关系后才使得这种广告合理并让客户接受。
互联网信息时代数据的积累各种技术的流行,使得人们很多时候考虑问题的方式已经改变,接下来我们要做的只有接受
大数据时代。软件行业程序上线的变更差错率是一个考核IT水平的指标。若用数据的思维,是否可能根据之前的各种相关数据预测下次投产变更的成功率?若用
大数据的思维,订餐网站不仅根据之前你定的是咸的还是辣的来给你推荐菜单,可能因为你微博上发了一句“每个月总有那么几天”修改了订餐的推荐菜单?
2、变革商业。
大数据所带来的商机,会衍生出一系列与
大数据相关的商业机遇与商业模式,数据的潜在价值也会源源不断地发挥作用于是未来有专门的
数据收集,
数据分析,数据生成的一条数据产业链产生。影响最大的,当然是IT公司。
包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金
大数据。可以看出,在推动
大数据企业应用方面,真正看到
大数据潜在商业价值的企业比
大数据技术厂商还要着急。有消息称,阿里巴巴以7000万美元收购了一家移动开发者数据统计平台。沃尔玛
大数据实验室直接参与到
大数据工具的开发和开源工作中。
大量的资本投资一些新型数据工具公司,根据美国道琼斯风险资源的数据,在过去的两年时间里,11.7亿美元流向了119家
数据库软件公司。2014年,SAP市值已经超过西门子,成为德国市值最高的上市公司,而这样的业绩部分得益于其
数据库软件HANA的商业化,2014年一年时间里HANA带给SAP3.92亿欧元的收入,增长了142%。
3、变革思维。
书中所说:因为有海量的数据作基础,未来,我们可能更关注数据的相关,而非精细度。对这条,本人还是持保留意见的。毕竟,没有精确、真实的数据,所有的分析和所谓相关都是苍白。
大数据时代改变思维方式一个例子谷歌。09年H1N1流行病毒背景下谷歌通过检测检索词条,处理了4.5亿个不同的数据模型,将预测结果与07、08年美国疾控中心记录的实际流感病例进行对比后,确定了45条检索词条组合,再制作数学模型后,最终预测结果与官方数据的相关系数高达97%。如果按照传统的信息返回处理流程,通告新流感病毒病例将延迟一到两周。对于飞速传播的疾病,信息滞后两周后果几乎是致命的。而谷歌运用
大数据技术,以前所未有的方式,通过海量
数据分析找出流感传播的范围,为世界预测流感提供了一种更快捷的预测工具。
另一个例子是阿里巴巴的马云通过大量
数据分析得出08年经济疲弱,为其旗下商家提前做好迎接经济危机提供了缓冲的时间。
既然
大数据时代在逐渐带来如此大的变革,那么在中国,我们是否可以开始尝试大范围推行呢?
然而,目前的中国没有
大数据的土壤。原因有三。第一,很多时候,各级政府不太需要
大数据,形成决策的关键性数据往往也只有一个数字比率GDP而已;第二,行业主管机构拥有大量原始数据,但它们还在摸索数据开放的尺度,是开放原始数据,还是开放加工后的数据?是转让给拥有更高级计算和储存能力的大型数据公司,还是与各种各样的企业共享?第三,
数据挖掘作为一项工具,其价值并没有完全被认同。在这个领域,硬、软件的发展目前还不十分成熟。
即便如此,没有人否认数据革命的到来,尤其在互联网行业。阿里巴巴的马云将
大数据作为战略方向,百度的李彦宏用“框计算”来谋划未来。即便是CBA也学起了NBA五花八门的数据统计、分析与挖掘。
我选择一个在我看来既是夕阳也是朝阳产业的饮用水行业来看中国在
大数据时代下做的详情变革。饮用水公司农夫山泉就用了
大数据来销售。
上海城乡结合部九亭镇新华都超市的一个角落,农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点,拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……这样的点每个业务员一天要跑15个,按照规定,下班之前150张照片就被传回了杭州总部。每个业务员,每天会产生的数据量在10M,这似乎并不是个大数字。
但农夫山泉全国有10000个业务员,这样每天的数据就是100G,每月为3TB。当这些图片如雪片般进入农夫山泉在杭州的机房时,这家公司的CIO胡健就会感觉:守着一座金山,却不知道从哪里挖下第一锹。胡健思索这样一些问题:怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答,但它们更多是基于经验,而不是基于数据。
从2008年开始,业务员拍摄的照片就这么被收集起来,如果按照数据的属性来分类,“图片”属于典型的非关系型数据,还包括视频、音频等。要系统地对非关系型数据进行分析是胡健设想的下一步计划,这是农夫山泉在“
大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息,如果类似图像、视频和音频资料可以系统分析,如果人的位置有更多的方式可以被监测到,那么摊开在胡健面前的就是一幅基于人消费行为的画卷,而描绘画卷的是一组组复杂的“0、1、1、0”。
SAP全球执行副总裁、中国研究院院长孙小群接受《中国企业家》采访时表示,企业对于数据的挖掘使用分三个阶段,“一开始是把数据变得透明,让大家看到数据,能够看到数据越来越多;第二步是可以提问题,可以形成互动,很多支持的工具来帮我们做出实时分析;而3.0时代,信息流来指导物流和资金流,现在数据要告诉我们未来,告诉我们往什么地方走。”
SAP从2003年开始与农夫山泉在企业管理软件ERP方面进行合作。彼时,农夫山泉仅仅是一个软件采购和使用者,而SAP还是服务商的角色。
而等到2011年6月,SAP和农夫山泉开始共同开发基于“饮用水”这个产业形态中,运输环境的数据场景。
关于运输的数据场景到底有多重要呢?将自己定位成“大自然搬运工”的农夫山泉,在全国有十多个水源地。农夫山泉把水灌装、配送、上架,一瓶超市售价2元的550ml饮用水,其中3毛钱花在了运输上。在农夫山泉内部,有着“搬上搬下,银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本,成为问题的核心。
基于上述场景,SAP团队和农夫山泉团队开始了场景开发,他们将很多数据纳入了进来:高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求(比如某城市召开一次大型运动会)。
在没有数据实时支撑时,农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品(350ml饮用水),在某个城市的销量预测不到位时,公司以往通常的做法是通过大区间的调运,来弥补终端货源的不足。“华北往华南运,运到半道的时候,发现华东实际有富余,从华东调运更便宜。但很快发现对华南的预测有偏差,华北短缺更为严重,华东开始往华北运。此时如果太湖突发一次污染事件,很可能华东又出现短缺。
这种没头苍蝇的状况让农夫山泉头疼不已。在采购、仓储、配送这条线上,农夫山泉特别希望
大数据获取解决三个顽症:首先是解决生产和销售的不平衡,准确获知该产多少,送多少;其次,让400家办事处、30个配送中心能够纳入到体系中来,形成一个动态网状结构,而非简单的树状结构;最后,让退货、残次等问题与生产基地能够实时连接起来。
也就是说,销售的最前端成为一个个神经末梢,它的任何一个痛点,在大脑这里都能快速感知到。
“日常运营中,我们会产生销售、市场费用、物流、生产、财务等数据,这些数据都是通过工具定时抽取到SAPBW或OracleDM,再通过BusinessObject展现。”胡健表示,这个“展现”的过程长达24小时,也就是说,在24小时后,物流、资金流和信息流才能汇聚到一起,彼此关联形成一份有价值的统计报告。当农夫山泉的每月数据积累达到3TB时,这样的速度导致农夫山泉每个月财务结算都要推迟一天。更重要的是,胡健等农夫山泉的决策者们只能依靠数据来验证以往的决策是否正确,或者对已出现的问题作出纠正,仍旧无法预测未来。
2011年,SAP推出了创新性的
数据库平台SAPHana,农夫山泉则成为全球第三个、亚洲第一个上线该系统的企业,并在当年9月宣布系统对接成功。
胡健选择SAPHana的目的只有一个,快些,再快些。采用SAPHana后,同等数据量的计算速度从过去的24小时缩短到了0.67秒,几乎可以做到实时计算结果,这让很多不可能的事情变为了可能。
这些基于饮用水行业实际情况反映到孙小群这里时,这位SAP全球研发的主要负责人非常兴奋。基于饮用水的场景,SAP并非没有案例,雀巢就是SAP在全球范围长期的合作伙伴。但是,欧美发达市场的整个数据采集、梳理、报告已经相当成熟,上百年的运营经验让这些企业已经能从容面对任何突发状况,他们对新数据解决方案的渴求甚至还不如中国本土公司强烈。
这对农夫山泉董事长钟目炎目炎而言,精准的管控物流成本将不再局限于已有的项目,也可以针对未来的项目。这位董事长将手指放在一台平板电脑显示的中国地图上,随着手指的移动,建立一个物流配送中心的成本随之显示出来。数据在不断飞快地变化,好像手指移动产生的数字涟漪。
以往,钟目炎目炎的执行团队也许要经过长期的考察、论证,再形成一份报告提交给董事长,给他几个备选方案,到底设在哪座城市,还要凭借经验来再做判断。但现在,起码从成本方面已经一览无遗。剩下的可能是当地政府与农夫山泉的友好程度,这些无法测量的因素。
有了强大的
数据分析能力做支持后,农夫山泉近年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。根据国家统计局公布的数据,饮用水领域的市场份额,农夫山泉、康师傅、娃哈哈、可口可乐的冰露,分别为34.8%、16.1%、14.3%、4.7%,农夫山泉几乎是另外三家之和。对于胡健来说,下一步他希望那些业务员搜集来的图像、视频资料可以被利用起来。
获益的不仅仅是农夫山泉,在农夫山泉场景中积累的经验,SAP迅速将其复制到神州租车身上。“我们客户的车辆使用率在达到一定百分比之后出现瓶颈,这意味着还有相当比率的车辆处于空置状态,资源尚有优化空间。通过合作创新,我们用SAPHana为他们特制了一个算法,优化租用流程,帮助他们打破瓶颈,将车辆使用率再次提高了15%。”
虽然
大数据还没法分析、挖掘出自己的直接变现能力。未来,数据会成为有价值的资产。假以时日,它会大摇大摆地进入资产负债表里。从农夫山泉和神舟租车的案例我们不难看出,无论我们阻挡还是欢迎,
大数据时代的真正到来是必然趋势。在未来,像今天的智能手机颠覆人们生活方式那样,
大数据的思维方式也会创造一个全新的生活方式。您和您的企业,准备好了吗?