数据分析没思路?利用数据分析全流程来指导实践?


从最初的做数据管理工作,到逐渐负责指标体系梳理、预警机制搭建、BI系统建设、商业分析等工作,我越来越认同——“要做什么”是比“要怎么做”更加重要的问题。
一个数据分析问题,例如“分析一下竞品的情况”,让人感觉无从下手。通常是因为这个问题过于抽象,过于复杂,从而让我们不知道“要做什么”。这时候我们就需要对问题进行拆解,把抽象的问题变具象,把复杂的问题变简单。
这个拆解过程就要求一个数据分析数据分析的整体框架有所了解。换言之,Ta应该能够回答:
01
数据分析的工作流程是怎么样的?
从工作事务的角度出发,我们可以将数据分析的工作流程划分为10个模块。该划分基于 “跨行业数据挖掘标准流程”( CRISP-DM),修改、扩充。目的在于涵盖商业分析的工作内容。
完成这10个模块的工作,需要我们回答以下10类问题。
这10类问题围绕着“问题”、“数据”、“方案”三个核心关键词展开。

1. 问题

  • 界定问题:需要解决的问题是什么?
  • 制定方案:针对这个问题,(从数据出发)给出的解决方案是什么?

2. 数据

  • 定义数据:根据预设的解决方案,需要的数据有哪些,是什么样形式的?
  • 获取数据:所需的数据是可得的吗?从哪里可以获取?
  • 理解数据:获取的数据蕴含了哪些信息?
  • 处理数据:为了执行解决方案,我们还需要对数据进行哪些处理?

3. 方案

  • 验证方案:根据现有的数据,预设的解决方案可行吗?最初的问题可解吗?
  • 评估方案:内部评估,预设的方案多大程度上解决了最初的问题?需要如何改进?
  • 实施方案:以什么方式,能准时、保质保量的交付解决方案?
  • 评价效用:外部评价,实施后的解决方案效果如何?有多少价值?产生了什么影响?需要如何改进?
02
如何利用数据分析全流程来指导实践?
以上提出的数据分析工作流程的描述,还是挺抽象的。
以下,用三个不同复杂程度的实例来说明——如何利用数据分析工作流程的方法论来指导实际工作。
简单模式:“好好,这份业绩报表以后你来刷新维护。”
我的第一项数据分析工作,就是定期刷新一份已经设计好的业绩报表。这份工作非常棒,因为这项工作只涉及了工作流程中3个模块:⑥ 处理数据、⑨ 实施方案、⑩ 评价效用。
而至于其他模块:
① 界定问题:在报表设计之初,就已经界定好了问题:我们要评估一下业绩的现状。
② 制定方案:并制定了一个交付物为报表的解决方案;这个报表中包含了我们用来衡量业绩的诸多指标,如:销售额,产能、产品结构等。
③ 定义数据:计算这些指标所需的源数据也已经定义好了。
④ 获取数据:可以直接从公司内部的系统获取数据。
⑤ 理解数据、⑦ 验证方案、⑧ 评估方案这三个模块,前辈们也已经完成了。
所以更新业绩报表工作,只需要处理从系统中获取的数据;然后制作报表,并交付。对该项工作效用的评价方式为:及时性与准确性。
复杂模式:“好好,买了份咨询公司的数据,你分析一下市场情况。最好能够预测下季度的销量。”
假设你是麻雀水果贸易公司的数据分析。现在老板从百灵鸟咨询公司买来了一份整个市场的销量数据。要求你根据这份数据,分析一下市场的情况,并对后续的销量做出预测。
这项工作的需求是相对明确的,这是一个描述现状和预测未来的需求。数据的来源,老板也花了数十万美金帮我们搞定了。所以我们不需要花太多的精力在① 界定问题 和 ④ 获取数据的模块。
我们粗略的看一下其他部分的模块应该要怎么做:
② 制定方案
针对描述现状和预测未来的需求,我们分别制定方案给出响应。
对于描述现状的需求,我们给出解决方案A。从宏观到微观分为三个层次描述市场状况:行业、公司、产品。
  • 对于行业的宏观情况,我们选用PEST模型做一个整体评估;再从渠道和价位段的维度做一个下探的分析。
  • 对于同业的竞争情况,我们采取市占率分析、品牌定位价位帕累托分析进行刻画。
  • 对于产品的竞争情况,我们采用波士顿矩阵进行整体的评估;再依据产品的特性(属性、功能、卖点)刻画客户的需求。
对于预测未来的需求,我们用多元线性回归模型作为解决方案B。
所以对于这项工作,我们将有两个交付物:一份分析报告,以及一个预测模型。
③ 定义数据:为了能够落地方案A与方案B,我们需要:
  • 宏观经济的数据;
  • 市场上产品的销量数据,并且这些数据要能够区分品牌、区分销售渠道、区分价位等;
  • 此外产品本身特性的数据;
  • 以及咨询公司提供的一些二手资料、结论等。
⑤ 理解数据:我们要对咨询公司提供的数据做一些探索性的工作,获取更多的信息。
  • 当我们获取的信息量更多之后,或许我们可以回到 ② 方案制定 的模块,做出更好的设计。
  • 也可能我们发现,目前的数据,不足以支撑我们的分析需求。那么就要回到 ③ 获取数据 的模块,补充所需的数据。
⑥ 数据处理:将数据加工为我们所需要的形式,指标等。这个过程的实施,可以是使用python、Excel、ETL流程等任何工具、方式、手段。
⑦ 验证方案:将处理好的数据代入解决方案,得到结果。如果没能顺利得到结果,定位一下是②~⑥的哪个环节出了问题。
⑧ 评估方案:评估得到的结果是否解决了最初的两个需求。例如:
  • 方案A的分析报告,是否给出了我司在市场中地位的结论。
  • 方案B的预测模型,对过往季度的销售额的预测准确度如何。
如果还有可改进的部分,在保证交付的前提下,返回模块 ⑦ 验证方案 进行优化。
⑨ 实施方案:将两个交付物交付给老板,以及相关干系人(部门)。
⑩ 评价效用:收集他们的意见与反馈。分析报告是否给相关决策提供支撑,预测模型在下季度的准确度如何?
地狱模式:“找点数据,分析一下吧。”
这时候需求很难界定、方案无从谈起、数据没有来源、验证依靠幻想、实施更不可能。