本文由“135编辑器”提供技术支持
中国统计网
你的职业成长过程非常顺利,从你的角度来看,你在大学期间的准备、在TD的工作、是如何结合起来的?
学校的准备:我在大学期间是计算机专业,对口的是数据挖掘方向,会涉及到多元统计专业内容,所以在整个大学期间,学习了比如回归、决策树、神经网络,也接触到HADOOP等软件,在这个过程中,算法是很复杂,但是如果你知道怎么用,对于算法的恐惧心就会降低,同时我是计算机专业,所以在代码这块,处理的会好些。在调用这些开源模型中,你会明白,这些算法原理、实现及算法机制,所以在大学期间,积累到编程语言如R语言、数据算法思路这些基础。
TD的积累:进入TD公司后,我从DM开始,再接触ETL,然后是BC,DM与ETL更多是通过行业参考机制,但是如果你收集到业务需求,然后整理信息需求,再使整个机制运作起来,你就会很清楚了解这套机制,了解到这套机制后,以后工作中也基本上走的通。所以我有一个规划的路程。从DM到ETL过程,但是我很少做DA工作,因为这个角色是把固化的信息做成报表的一个过程,前面是比较重要的一个过程,但是到了我这边,更需要软实力,包括沟通能力及逻辑能力,在跟业务沟通的过程中,怎么在这个过程中收集业务信息并固化成信息的能力。
总结:在校期间提升统计学及软件编程的实力,在工作期间提升软实力(沟通能力、逻辑能力、分析能力、规划能力)
中国统计网
在Teradata期间,DW是如何和其他角色一起工作的,流程如何?
Teradata在数据仓库有着很好的建树,应用到很多行业,比如银行、通信、航空等行业,在各个行业,它的整个运作体系会分为BC、BD、BA、BM,这四种角色在整个项目中进行全方面合作。
BC:Business Consultant,主要是收集企业对于整个项目的规化与需求,并形成自己的SOW,就是确定这个业务边界以及功能的边界。
DM:之后,需要数据建模去跟进所涉及到的业务板块的数据,进行信息需求的收集及探索,有一个重要的过程就是DM。当探索过程完成后,会根据Teradata的行业建模的文档及企业实际情况建立企业三层架构模型。当数据模式产生后,DM会配合ETL从源数据层---临时数据层---到数据整合层-数据应用层进行数据梳理,在整个过程中需要BC、DM、ETL、BA共同建设。这样就涉及到ETL与DM对数据应用层的开发与建设,他们共同参与进来。
中国统计网
不同角度的差异:首先,甲方、乙方本身就有很大的区别,乙方在前期沟通过程中是很明确的需求,乙方要做的就是做好他所负责这块,就达到要求了;但是在甲方,你会发现缺一个PM的过程,你可能本身就PM,那么就要求你对项目有一个很好项目管理与规划能力,在整个过程中要有节奏、有计划地进行项目落地。
优秀的重点标准:不仅需要会ETL做报表,更需要有一个很好的洞察的能力及沟通能力。如果你在洞察过程中,能把业务亮点总结下来,应用到场景中并推到业务发展,这是一个衡量优秀数据分析师的重点标准。
中国统计网
数据是公司的核心的财产,那么我们是如何衡量数据对于公司的价值的呢?可否举个例子说明数据如何对业务起到明显改变的?
对于公司的价值我可以由几个场景进行说明,包括从基础的数据应用到高级应用,另外价值对于不同公司可能也不一样。
第一个场景:在甲方的零售公司,其实我们会有一个非常重要的数据运用,就是我们的经营月报,他们会对于整月经营报告进行复盘,那么包括我的会员,我的营销以及我的店铺管理以及市场的研究与管理。
第二个场景:针对某一点专门分析,比如说业财融合,业就是业务,财就是财务,就是把业务的收入与财务上的收入进行匹配,如果不匹配我们就会发现财务上的一些漏洞,在整个过程中,我们就会把财务上的现金表与利润上的收入,进行对标,每个月都进行,就会减少人工审核,也会解决因为存在应收账款上的问题而导致财务上不能匹配的问题。
第三个场景:在互联网公司中,数据分析师的分量非常重要,比如基于产品的分析,从需求收集到最终效果分析,在这个过程中,我们可能会涉及到产品流程上的改造及产品正负的价值到底有多大,这样产品改造的价值在哪里,都是需要数据分析进行阐述的。
第四个场景:在互联网公司中,对于数据探索,各个指标对于产品的影响权重是否一样,各个指标的相互影响怎么样,我们在日常监控中要建立指标体系,哪些指标对业务有影响,指标与指标相互的关系是怎么样的,这样就会有一个层层相扣,相互印象的关系。
第五个场景:可能会应用到数据挖掘的思路,包括劣质产品模型,CTR预估,流量价值预估,大促销量的预估,其实它在各个模块中的应用及各个销量的预估,都会对于公司带来深远影响。
中国统计网
你觉得一个优秀的数据分析应该具备那些优秀的习惯呢?
多问多听多确认:在跟业务方沟通中,能够真正提炼出业务方的核心需求,再把这些问题拆分成一个个子问题,在业务理解这个环节,要多问多听多确认。多问:引导业务告诉我们更多的信息;多听:可以将问题通过决策树的形式进行描述,提炼出我们可以探索的子问题;多确认是表达和确认我们共同点与差异点,避免信息理解错误。
好奇心:在数据探索过程中,应该有强烈的好奇心,应当深入了解并彻底的解决掉这个问题。在数据开发环节中,确认数据口径是否符合经验值,幅度是否在一个正常的范围内,各个指标进行确认与检查。
报告提炼:报告中至少有几个亮点及几个洞察的点,并提出你的建议与解决方案,只有这样,未来如果发生同样场景,你才能推动解决。
中国统计网
其实在企业当中,我认为数据分析师有三种的角色,第一种我们提到的深入到产品中流程中改造分析;第二种是我们到行业中,做一些专题研究,深入业务深入人群并提出相应的解决报告;最后一种是相对基层做一些报告实施与开发角色。
数据分析师一定要想好自己所走的路是什么样,我的建议是每种角色都可以跳跃的进行尝试。