数据分析师:如何和数据分析师打交道?


ss.jpg

如果你是一名要和组织内的数据分析打交道的管理者,要做出更多大数据驱动的商业决策,如何提出好问题应该是你要优先考虑的事情。很多管理者对提问感到恐惧,生怕在跟大数据相关的问题上露怯。不过,如果你提出了正确的问题,你不仅可以显得博学,而且有可能带来更好的决策结果。
不过,重要的不仅仅是那些你能对大数据提出的关键问题,在你提问之后可能发生的对话也同样重要。
 
1.关于假设的提问
你问:你建立的这个模型背后的假设是什么?
根据他们的回答,你设想的回应:如果没有特别的假设,你应该感到担心。因为每个模型背后都应该有假设。除非你假定样本代表了某个群体,或者之前搜集的大数据对于当前的情况仍然具有代表性。
接下来:有什么理由可以说明这些假设不再有效了?
你设想的回应:在这里,你确实要得到一个经过深思熟虑的、切实的回答。唯一辨别假设是否依然有效的可靠办法就是以新采集的大数据为基础,重新做一次分析,这可能得花不少钱。或许某一特定的关联只在某一变量向特定方向发生改变之后,才会有效。比如抵押风险模型只有在房价上涨的时候才依然有效。
 
2.关于大数据分布的问题
你问:你搜集的大数据是如何分布的?
你设想的回应:如果他无法描述数据分布,那他就是个糟糕的分析师。优秀的分析师早就应该检视过了——而且还能以视觉化的方式把你的大数据在任何特殊变量上的分布展示给你看。
如果你有兴趣把一个变量作为另一个变量可能的预测指标,找你的分析师要一份“散点图”,看看大数据是否以任何线状形式分布,这表示两个大数据之间呈现很强的相关性。
接下来:大数据是以正态分布吗?
你设想的回应:如果数据分析大数据不是以正态分布(也就是说,呈现一个钟形曲线),那他就得使用不同类型的统计方式(称为非参数统计),因为通常使用标准差和相关分析不起作用。
你可以问分析师,他们如何在大数据分布的基础上调整分析。比如说非参数检验经常就需要具有形同统计可靠性的大量实例。
再接下来:有没有特别的异常值?
你设想的回应:如果大数据是正态分布而又有一些异常值,你可以问问这说明什么,分析师打算对此采取什么动作。在某些情况下,删除异常值是合理的,比如说,如果他们是代码错误导致的。
看,你已经了解大概的路数了。对话当中,展现你对此很感兴趣,也具备一定的知识,而且你的目的是为了更好的决策结果,这些都很重要。提出这些问题并不是要表现你懂的比分析师还多,或者分析师对你隐瞒了什么。这跟一个CEO与一个汇报财务大数据的部门管理者之间的对话一样,温和的追问是最好的方式。