举一反三,大数据算法正在谨慎前行


大数据算法是最近一些技术的核心。数据分析团队越来越需要深入研究算法的工作原理以及它们所需要的数据。

正如摇滚纪录片《Spinal Tap》中总结的那样:“聪明和愚蠢往往只在一线之间。”这句名言在数据分析领域也同样适用。”

的确,一个“聪明”的算法和一个“愚蠢”的算法之间的区别是非常细微的。随着数据分析逐渐向大数据分析靠拢,批量分析向实时分析靠拢,算法也逐渐成为大数据算法,这条分界线也越来越细。

在这个夏天,充斥着航空旅客滞留的消息。我们公司的同事Don Fluckinger亲身经历过糟糕的座位分配和随后航班取消后,在最近的一篇文章中详细讨论了这个问题。航空公司将其归咎于算法。这样的借口是难以让人满意的。

乘客最近经常遇到这种算法问题,根本原因在于航空公司把精力都花费在了座位分配算法上,他们只关注提高效益,没有充分的考虑旅客的感受。

如今,计算机在航空领域发挥着不小的作用。在此之前,一趟航班上空着几十个座位是很常见的事。在晚上的航班上,座位空着,人们甚至可以平躺下来。但是现在,计算机技术基本消除了空载情况。

吃一堑,长一智

现在,座位分配已经成为一种科学,各个航空公司都已经开始使用分配算法来增加收益。

当这个算法变得像例行公事的时候,就会产生潜在的麻烦,特别是在人类的话语权逐渐被机器取代的情况下。

具有丰富分析经验的Sid Dalal介绍了大数据、实时计算和机器学习模型的使用,以及这些功能对保险——一个关注风险分析的传统行业所带来的影响。

自2013年以来,Dalal一直是纽约AIG的首席数据科学家和高级副总裁。当他讨论大数据分析算法的变革时,他的关注点在于技术化和人性化平衡。Dalal指出,机器学习需要人类的决策和洞察力结合使用。人们如何呈现分析数据以及如何针对分析结果来采取相应行动,这些才是至关重要的。

上世纪80年代,Dalal曾在Bell Labs与一个团队合作,他回顾了1986年挑战者号航天飞机的灾难,并讨论了该事件是能否被预测的问题。众所周知,工程团队在发射前一晚举行了一场紧张的电话会议,以评估风险测量数据。最终,尽管Cape Canaveral的气温比以往任何一次发射时还要低,挑战者号还是升空了,最后悲剧不可避免地发生了。

查看完整的数据集

Dalal对MIT研讨会的与会者说,在挑战者号发射前夕进行的原始分析是有偏差的,因为数据丢失了。但更为严重的问题在于,分析团队收集到了一些数据,这些数据表明发射应该被取消,但最终这些数据并没有输入到飞行分析系统中。

这些数据与O形环有关,它用来密封航天飞机固体燃料助推火箭的各级。这些O形环存在可靠性问题。而O形环问题与低温之间的相关性并不为人所知。用Dalal的话说,“他们看问题还是过于肤浅了”。

从更完整的数据集来看,大部分人都能看出O形环的受损与温度之间的关系。然而,决策者们得到的只是完整的数据的一部分——一个有缺陷的数据快照而已。

但有关挑战者号发射的决策,还存在一个更大的问题。这是航天飞机项目的一个普遍问题,从项目名称就能看出蛛丝马迹,就像Dalal所指出的那样,把航空飞行器叫做“航天飞机”,由此推断,其发射前检查可能就像民用航空那样是例行公事。后来又发生了哥伦比亚号航天飞机的灾难,最终使人们才意识到这一点的严重性。

Dalal提起挑战者号的悲剧只是想告诉大家。人们需要了解他们所处理的数据,对于他们的分析和机器学习模型,要具备良好的判断能力。

“人类对于数据分析结果的判断,是非常重要的,” Dalal说,“人类和机器之间的共生关系实际上是至关重要的。

并不透明的大数据算法

今天,关于算法的讨论经常集中在黑盒的算法上,即机器或深度学习。这是一个直接给出结论的算法,但并没有给出其选择的基本原理。

例如金融业,对黑盒算法并不感冒,他们对不了解内部机制的算法表现的极为不信任。Andrew Burt曾和我讨论过这个问题。

Immuta公司的首席隐私官和法律工程师Burt说,理解机器学习模式的结论的路径始于对数据本身的更深层次的理解。Immuta是一家致力于为高级分析工作提供良好数据治理的公司。

他表示,企业需要通过仔细观察美联储的数据、模型本身性质以及模型所做的决定来实现对机器学习的管理。在大数据分析领域,企业需要谨慎前行。
来源:网络大数据

CPDA课程海报