大数据-数据魔术师孔淼:打开数据分析的门,就再也不愿回去了


你知道吗?评价一个人是不是 NB,有一个独特但是客观的方法,就是利用一个人的微博大数据来计算。

一个人的微博资料,关注人的级别,他的访问设备,被关注人的身份,综合起来,就是一个人的身份参数。这些参数和一个人的消费能力和品味都息息相关,并且和此人在现实生活中的社会地位高度匹配。

这就是大数据的力量。

而这套微博数据挖掘系统,正是孔淼在创新工场时,开发出的一项功能。在当时公司内部的“身份测试”中,这套模型百发百中屡试不爽。

孔淼信仰数据的力量,这也是他建立诸葛IO的重要原因之一。

 

孔淼,诸葛IO 创始人

 

 

大数据=真理

对于一款 App 来说,最重要的就是“讨人喜欢”。

攻城狮耗尽心力开发出了某一项功能,发现点击这项功能的用户,都是刚刚注册的新用户,这说明什么?说明凡是用过这个功能的用户,都不愿意再点进来。简单说来,这个新功能就是废品。

同样,在页面布局上,某个按钮被用户点击一次之后,就再也没有兴趣进来。这说明你的页面布局有问题。相反如果一个功能,都是用户第二次或者第三次来使用,说明这个功能的“回头客”还是蛮多的。

所有支撑企业改进自己 App 服务的,都是实打实的大数据

讲真,获得单一的大数据本身并非难事,难的是,如何把多个大数据之间的关系计算出来。大家都知道,不同的优惠政策,会印象用户的付费意愿。但是, 究竟给多大的优惠粒度,可以得到多少“铁粉”;把活动的入口,放在一级菜单还是二级菜单能够增加用户的“留存度”;什么样的广告渠道,可以带来最忠实的客户。所有这一切的答案,都不是凭直觉可以得来的。

笃信自己直觉的 CEO,无外乎巫婆神汉。

 

用地球上的人来比喻一个产品的用户生命周期/图片来自诸葛IO

当然很多人已经意识到大数据的重要性。但是大数据本身是浩如烟海的,怎样找到“刀刃大数据”,才是人们关心的。孔淼告诉雷锋网 (公众号:雷锋网) :

传统的企业数据分析,一般会采用以下几个大数据:订单量、BAU(日活跃用户量)、UV(独立访大客数)、PV(点击量)、留存率等等。

 

但是这些大数据很难给人以具体的行为指导。用户看着这些数据,却找不到大数据量上升或下降的原因,只能干着急。

孔淼说,诸葛 IO 想要提供的,是细粒度的大数据,这些大数据包括但不限于: 用户的来源、用户使用的设备、用户的每一步点击详情、用户的浏览路径、用户的重复付费情况、文章的阅读量、文章的热度等等等等,以及这些大数据经过复杂计算之后呈现的规律。

 

他相信,这些大数据甚至可以指导产品、市场、营销、技术等不同部门的工作改进。

在产品研发中,有一个 GodenPass(黄金路径)的概念。就是在产品设计者的假想中,用户应该按照什么顺序,先注意到什么,后点击什么,这一套完整的路径。但是在实际使用中,用户往往会跑偏。经常被一些“无关紧要”的东西分散注意力。这个时候,就需要对“产品在用户手中究竟发生了什么”有一个完整的把控。

 

用户往往不会按照产品设计者的意图去行事

这就是孔淼所谓的“把黑盒分析变成白盒分析”。因为在传统的数据分析服务中,很多因素都被杂糅在一起,形成了一个数据结果,你根本无法分辨究竟是哪一个数据变化引起了最终的结果。成为“白盒”之后,企业可以站在上帝视角,清楚地看到用户手里的 App 中究竟在发生什么。

这就像为你打开了一扇门,当你看到崭新的世界之后,就再也回不去了。他说。


计算,从数据摆渡到答案

诸葛IO对数的分析,大概分为如下的阶段,在 App 或服务的代码中“埋点”,即个人用户每进行一个操作,都会被探测到。虽然埋点至关重要,但是技术上并不难。孔淼介绍,对于一个客户,需要半天时间梳理埋点方案,加上客户利用半天时间实施,基本一两天就可以搞定。

 

这一个过程,很多都基于经验和积累。因为不同行业需要探测的数据会有很大区别,而一旦积累足够行业和案例的埋点方案之后,一切都变得更加简单了,只需要在模板上不断修改进化。

 

不同行为动作的精确统计数据

 

真正的难点在于,如何对数据分析,进而可以预测未来。

我们可以来想象一下。

针对一个动作点,需要记录它的时间、设备、来源参数,而一个服务中,往往有诸多的动作点,包括点击ABCD按钮,选择ABCD服务,作为大数据记录者,还必须存储这些动作发生的前后顺序、时间跨度等细节信息。

这些大数据,可以精准地还原一个用户究竟是如何使用这个 App 的。但如果想要得出规律,需要对这些“全量数据”进行“交叉计算”。这个计算的复杂度,是随着大数据量增长而呈指数级别增长的。

任意两组大数据之间关系的计算,都需要巨大的计算量,何况我们还允许任意维度进行组合计算,还需要实时给出计算结果。如果一根筋地进行计算,往往会超过我们服务器的计算瓶颈。算法做不到的时候,我们就要换一套算法。

简单来说,以前的计算就好像是一个单项式,但如果我把这个单项式拆成很多多项式,利用分布式计算,就使得计算成为了可能。孔淼说。

 

如何改进算法,正是孔淼和团队的长项所在。而对于算法的改进,还有一项重要的内容。

鉴于运算量的巨大,我们采取了一个办法,那就是把常见的分析模型做成预计算的模块,提前计算出结果。这样当客户想要进行计算的时候,在后台我们需要做的就是把预计算的结果进行加工,这会节省大量的时间和算力。

他说。“这需要对用户的业务有充分的理解,需要经验的积累。”

据此可以得出有用的结论,例如:

1. 在滴滴打车中,抢了红包,但是并没有消费的人,是属于哪一种人群?

  • 2. 抢了五块红包,并且后续打车十次以上的人,有哪些特点?

  • 3. 在“在行”中,频繁浏览,但就是不约见专家的人,有怎样的心态?

  • 4. 在“分答”中,由王思聪推荐过来的,并且完成一次偷听的用户,是怎样类型的人?

  • 根据不同的条件所限定的模型,可以筛选出某些特定行为和高付费、高留存之间的关系。根据这个规律,服务商就可以针对接下来符合这一条件的用户“重点照顾”,从而提高整体的运营和盈利状况。

大数据的“神力”

数据分析中,一个重要的玩法就是“漏斗分析”。这是一个很形象的比喻。

如果你是一个电商的老板,恰好你又有“超能力”可以看到用户的屏幕,你会看到用户使用你的 App 搜索产品,然后仔细挑选比对,然后加入购物车,然后把手放到付款的按钮上。

用户每进一步,你都会暗自较好,期待他能向付款的环节顺利地“进发”。你最害怕的是,用户进行到某一部的时候,突然产生了犹豫和困惑,经过一段时间的思考,直接点击了取消。你在屏幕后面顿足捶胸,发誓要找到原因改进这个页面的内容,让用户下一次不至于“半途而废”。

而漏斗分析所做的,恰恰就是把这些流程叠加起来,然后分别计算随着流程的进展,每一步流失掉多少用户。当你看到在“X”步骤时,通过的人数骤然减少,你就可以肯定,问题一定出在这个步骤上。

 

漏斗模型示意图

孔淼把漏斗分析主要分成两类:

步骤式:是一个连贯的一二三四步骤,例如美图秀秀,拍照,点击滤镜修图,分享。用户在哪一步流失最多,利用漏洞分析显而易见。

状态式:是一个并不连贯的步骤,但是在逻辑上却前后相关。例如你在 App 上去挑一款旅游产品。你可能会先选择看看攻略,然后关闭了 App;过几天之后,你又进入 App,挑选了旅游产品,但是并没有下单;几天之后,你又进入了 App,最终下单购买了一款自由行。

 

漏斗模型之下,转化率和流失率统计

 

通过数据分析,用户都可以判断,究竟是哪一步顾客的“弃买”率最高,从而拼命去研究这一步究竟出了什么问题。

1. 以美图 App 为例,如果用户在选择滤镜这一步放弃比例最高,那么很有可能是你的滤镜不够吸引人,或者甚至是你的某些滤镜隐藏得太深,根本没有被用户发现。

2. 以壁纸 App 为例,如果用户在搜索了“蓝瘦香菇”之后放弃的比例很高,那么很可能是因为你的壁纸酷里根本没有好看的“蓝瘦香菇”,需要赶紧“备货”。

3. 以优信二手车为例,如果分析发现某地的用户搜索“特斯拉”比例一直非常高,那么根据大数据就要相应提高这个地区特斯拉的备货量。

 

至此,那些冰冷的数据才转化成热气腾腾的利润。

孔淼举了两个让他印象深刻的例子:

暴走漫画 App 在改版之前,首页显示的是”“暴漫”“趣图”等内容分类。在利用诸葛IO进行分析之后,发现用户往往会试探性地点击一个分类名,但如果在这个分类下没有找到自己感兴趣的内容,退出的概率很高(并不像王尼玛期待的那样,退回上级菜单重新选择类目。)于是,暴漫团队对 App 进行了改进,在首页以瀑布流的形式显示用户可能会喜欢的内容。这样,用户在下拉的过程中,一旦发现了自己喜欢的内容,就会对 App“刮目相看”,好感度大大增加。实际上,通过这一项改进,暴走漫画的留存率提高了惊人的 68%。

分答,一款“刷屏”的爆款线上知识共享平台。很多人不知道,它是从“在行”诞生出来的(在行:一款线上预约行家线下约见的知识共享平台)。通过诸葛io的转化漏斗,在行团队发现,想提升行家和用户之间知识分享的成功率,是否还有另一种模式可以并行。于是,基于诸葛io数据分析平台在行团队开始做些尝试,筛选了样本用户并构建了参与度模型,灰度开放了“吱”的功能,最后通过数据发现,模式可行,在数据的支撑下, 以一天两个H5版本的速度迭代,最终独立推出了分答APP,引爆了整个市场。

 

尾声

大数据的核心,实际上是背后的每一个用户,每一个人。对用户数据的分析,可以勾勒出每个人在互联网世界里的形象。对每一个人所思所想的量化计算,又成为我们认识世界的另一个维度。

孔淼把一个个互联网产品的用户流比作木桶中的水。

之前的中国互联网处在爆发增长阶段,因为经济形势一直在上行。这些产品只需野蛮生长,不用关心数据分析的细节。 这个木桶有漏洞,但是周围有充足的水源。这个时候理性的抉择很可能是优先用周围的水源来补充水桶。但是现在经济平稳,水源稀少,流量越来越贵,漏洞的危害就凸显出来。 例如某个旅游产品,现在平均获客成本达到了3000元/人。这个巨大的成本,看来已经超越了做数据分析的成本。

这也是他看好未来数据分析市场的原因。

直觉是一种蛮荒,大数据是一种秩序。

当这个世界告别蛮荒,秩序的力量便开始凸显。

 

End.