数据挖掘师,要从一个人活成一支队伍


作者:傅一平 就职于浙江移动大数据中心
每每看到数据挖掘师对于大规模数据处理,机器学习算法侃侃而谈的时候,觉得这就是数据分析该有的样子,这就是大师。

但企业中真正有价值的数据挖掘师却往往不是技术最强的那个,比如,作为局方一直管理着一只合作伙伴的数据挖掘团队,每当需要评定每个数据挖掘师的业绩时,却发现技术能力最强的常常排在后面,而评价最高的往往是有想法,愿配合的那个人,那个人甚至不会写R或Python,只会EXCEL分析。

为什么?

一次排名第一可以说是偶然,但每次都是第一肯定有内在的因素,难道我们企业真的不尊重技术,技术难道不能有效的创造生产力吗?

显然不是,笔者觉得是我们对于数据挖掘师的认知出现了偏差,会算法,会工具,会处理当然是有效手段,但显然不是支撑最终决策的唯一的手段,甚至不是最重要的手段,这是很多人看不到的,之所以看不到,可能跟形而上学有点关系,诸如数据挖掘这些词本身就是从手段的角度来描述岗位的,带有强烈的技术色彩,比如限定了数据,限定了挖掘,让大家以为在数据领域用越高级的专业挖掘手段就代表了越有可能创造收益,但现实情况要复杂的多。

那么,怎样才算是一个好的数据挖掘师呢?

首先我们来理解下什么叫做真正的专业知识,笔者先说个听来的故事,成甲在《好好学习》一书中举了这么个例子:

“筱颖是罗辑思维“得到”App里万维钢《精英日课》的主编,这姑娘雷厉风行,常常凌晨三四点还在,如果没有和罗辑思维“得到”合作过,你就不会知道这个团队的人工作起来有多癫狂。”

“人少,活儿多,要求高——看来,这不仅仅是设计行业的痛苦,也是“得到”团队工作的真实写照。 可是,在我看来很多无法完成的工作,筱颖都出色地完成了,用她的话说就是:在这里,我们必须一个人活成一支队伍。”

“筱颖这一个人,活成了什么样的队伍呢?她一个人要负责主题策划、音频录制、音频剪辑、内容审核、留言审查、新作者挖掘、老作者维护、新内容开发、宣传文案策划……当她全力投入,把一个人活成一个能够随时完成“侦察”“设伏”“狙击”“围点打援”各项能力的队伍之后,她成了斜杠青年。”

因此,要把一件工作做好,不是说只学某个专业的知识就够了,也不是简单地这也学学,那也学学,而是要学习与解决某一类问题相关的所有核心能力,这一点,一定是突破专业限制的。

我们所谓的专业,比如市场营销、法律、政治、历史、文学、IT,抑或其中的数据挖掘师,其实只是人为制造的分类标签罢了,但是,这个世界并不是按照你划分的标签在各个专业之内单独运行的。一个市场营销的问题,背后往往涉及法律、政治、历史和文化的因素,可是我们所谓的专业,并不管这些:你学好4P(产品、价格、渠道、促销)、市场细分等概念,就可以毕业了,这种认识,会极大地阻碍我们学习真正应该学的知识。

数据挖掘师是支撑决策的,那做决策到底跟什么知识有关?

你要基于数据对外变现,就需要对于各个垂直行业有所理解,这是数据挖掘最重要的事情,假如对于金融领域的基本概念都不清楚就不要说给人家做风控模型了,运营商做对外变现最大的挑战之一就是对于行业不了解。

你要将数据进行精准营销投放,就需要学点营销知识,好歹知道4P,市场细分的基本概念,市场业务流程都搞不清楚,所谓的数据驱动业务也是扯,数据挖掘的效果可是跟政策、产品、渠道都相关,哪里仅仅是数据的事情?

你要理解挖掘需求就得跟人沟通吧,这个时候你就得学点心理学,基本的情商还是要有的,固执己见是数据挖掘师要不得的毛病,好的挖掘师首先是好的倾听者,做数据挖掘的就不要搞什么独狼和英雄主义了。

你要展现你的成果,就需要懂点金字塔原理,知道如何将自己分析的成果表达的清晰准确,让人家一看就懂,也许你用了无数次的决策树算法,但你却可能不知道层次结构分析法。

你要将数据对外提供,也需要懂点法律知识,知道国家对个人隐私保护的各项政策和公司信息安全的各项规定,否则傻乎乎的把清单搞出去,闹大了可是要被判刑的。

数据挖掘师常常会被世俗的标签框定了自己的可能性,因而,学习就学习标签内的东西,看了一堆算法书,学了一堆的语言,懂了很多的EXCEL和PPT技巧,但仅仅有这些实际上并不能干成事。

笔者想说的是,在这个世界上,想要做到极致,恰恰要学习“无用之用”,无用之用,方为大用。

如果从这个角度理解能力,我们就要跳出局限,一生就需要学习三个级别的课程:(1)公共基础课:执行能力;(2)专业必修课:专业能力;(3)通用必修课:结构能力。

对于数据挖掘师来讲,公共基础课就是我们每个人每天用到的执行能力,比如时间管理、商务礼仪、沟通交流、EXCEL、PPT、思维脑图等等,市面上有海量的书籍在介绍这些知识,我们学习和掌握起来都比较方便。

专业必修课就是数据挖掘的专业方向,正如前面说的,这个专业不是指仅限于挖掘这个词,而是指能够端到端用数据解决一个决策问题的所有能力之和,你要跨学科地思考、解决问题,一个人活成一支队伍。而这种系统解决问题的知识往往是内隐的,需要我们在不断实践、思考的过程中,领悟到跨领域知识交汇的微妙之处,从而灵活地把多个学科之间的知识随时调用,打赢一场战役,除了传统的数据、平台和算法知识外,还包括数学知识、营销知识、行业知识、心理学知识、安全知识、分析方法等等。

通用必修课是笔者从成甲的《好好学习》中看到的,觉得这是走向更高认知层面的一些知识,比如牛顿第二定律F=ma这样能够更广泛、更普遍地指导我们行动的重要而基本的规律,也叫“临界知识”,查理·芒格称之为“普世智慧”,诸如复利效应、概率论、黄金思维圈、进化论、系统思考、二八法则等等。

比如系统思考强调“关系”,而非“人和事物”,数据建模这个事物虽然很重要,但更重要的是关系,即需要打通效果数据和原始模型这个反馈优化流程,成甲也通过魏则西事件的关系分析,判断出百度“作恶”的根本原因是缺乏搜索效果的常态化反馈机制,淘宝由于有买家点评就不大可能产生这种恶劣问题。

比如二八原则,数据挖掘花了太多的代价在数据处理、变量准备和模型发布上,这部分耗时长,价值小,显然不符合二八原则,需要尽可能降低这部分时长,这也是笔者希望在敏捷数据挖掘上做一些突破性工作的原因。

对于数据挖掘师来讲,能够独当一面是综合素质的体现,其水平绝对不是掌握了几个算法、几个工具所能代表的,这能解释为什么有些不怎么会算法工具的人数据分析能力仍然这么强的原因,我们往往只看到了“看得见”的专业能力,而往往忽视了“隐形”专业能力的培养。

来源:与数据同行
CPDA课程海报_大数据_数据分析