大数据漫谈:大数据生态


“算法经济”:算法交易将会形成一个全球性的市场,世界各地的研究人员、工程师都能在这个市场上创造、分享乃至合成大规模的新算法。届时,算法也将变得像集装箱一样,能够任意组合扩展,从而搭建适用于不同应用的架构。
大数据和云存储也都遵从摩尔定律:每过两年,世界上大数据的数据量就会翻倍,同时用于存储这些大数据的成本则会以同样的速度下降。这些大数据使得人们可以创造出更多的产品特征和更好的机器学习模型。
智能商业的世界里,大数据为王,而那些能够产生最高质量大数据的服务将获得压倒性的优势。正如上文所言:活的、高质量的大数据,将更容易生成更好的算法、模型、引擎,进而创造出拥有更好用户体验的大数据产品,再吸引到更多高质量的用户数据。换句话说,这不仅仅是反馈闭环,也不仅仅是闭环的效率,这里涉及到一个新的名称 — 正向反馈闭环。
让我们再次回到工业时代:工业革命的早期,企业为了生产最终的产品,不得不生产这个产品中的每一个部件,有的甚至还得自己解决生产这些部件的能源(蒸汽能,电能)。
而随着工业化进程的发展,企业的分工越来越细化,有人专门解决能源问题,有人专门生产特殊部件。在社会分工越来越精细化的全球化过程中以及未来的工业4.0,生产企业甚至只需要根据用户的个性化需求,智能化地采购,组装,配送就能完成未来的工业生产,那将是一个没有预先规划,没有库存的新工业时代。
我们再看看互联网时代、无线互联网时代的软件/App市场:各种各样的个人,即使不向投资人兜售自己的创意和想法,或建立自己的销售,市场和分发渠道,也能够在全球范围内发行和销售软件,最终形成App生态。
 
为什么不论是在工业时代,还是互联网时代,分工都越来越精细化?
一是因为最终用户所需要的产品越来越复杂,必须有社会分工才能完成;
二是因为每个人,每个企业拥有的资源不一样,拥有的优势技能也不一样。所以大家必须一起分工合作,这样就形成了工业时代的商业经济,互联网时代的App经济。
 
DT时代也是如此。DT时代将催化出大数据生态。DT时代的数据生态,我从如下两个方面来定义:
 
一、数据交换/交易市场
 
智能商业的基石就是大数据中的数据,作为智能商业的第一要务,大数据是最重要的。
大数据作为生产资料,大数据时代的血液,好比汽车的汽油,没有汽油,再精美高端的汽车也无法运转。而大数据的来源往往是多方面的,未来一个企业所用到的大数据往往不仅仅是自身的大数据,甚至是多个渠道交换、整合、购买过来的大数据。对于“羊毛出在猪身上”的大数据商业形态,大数据一定是流动的,大数据只有整合关联,才能发挥更大的价值。但是大数据要实现交换,交易,正如我上文所言,我们最终所必须解决的是法律法规,数据标准等一系列问题。
 
二、算法经济/生态
Gartner分析认为,算法将形成一个全球性的交易市场,就像当年的App,催生出全新一代的专业技术初创企业,并且革新机器与机器之间的交互方式。同时,更多的数据将生成更好的模型和用户体验,进而吸引更多的用户以及更多的数据,而这将导致储存和计算数据的成本持续降低。Gartner曾发表报告,对算法经济可能带来的市场影响做出评估。Gartner认为,无可避免地,算法经济将创造一个全新的市场。人们可以对各种算法进行买卖,为当下的公司汇聚大量的额外收入,并催生出全新一代的专业技术初创企业。想象这样一个市场:数十亿的算法都是可以买卖的,每一个算法代表的是一种软件代码,能解决一个或多个技术难题,或者从物联网的指数级增长中创造一个新的机会。
算法是创造智能应用的基石,是大数据的核心价值。也就是说,多个机器学习算法可以结合起来成为更强大的算法,从而更好地分析大数据,充分挖掘大数据里的价值。
广义的算法存在于大数据的整个闭环之中,从大数据平台、ETL(数据采集,数据清洗,数据脱敏等)、数据加工、数据产品等的每一个层面都会有算法支持。算法可以直接交易,也可以包装成产品、工具、服务,甚至平台来交易,最终形成大数据生态中的一个重要组成部分。
甚至有人认为好的算法能够摆脱很多公司对大数据的过度依赖。尽管数据在DT时代可能是最昂贵的生产资料,但若算法足够强大,大数据并非必须。如迁移学习能让计算机摆脱对大数据的严重依赖,从而让人工智能不再只是“富人的游戏”。
正如App经济变革了人类与机器的交互方式一样,我们将会看到,算法经济将会促进下一代机器对机器互动演进的巨大飞跃。
人们将会通过产品使用的算法来评价它的性能好坏。企业的竞争力也不仅仅在于大数据,还要有能够把数据转换为实际应用的算法。因此,CEO应该关注公司有产权的算法,而不仅仅是大数据
正在涌现的机器智能平台可凭借“模型作为服务”的方式,托管预训练过的机器学习模型,从而令企业能够更容易地开启机器学习,快速将其应用从原型转化成产品。当企业们采用了微服务(microservice)发展范式后,接入并使用不同的机器学习模型和服务以提供特定功能的能力将变得越来越有价值。
所有的这一切,最终也离不开云计算,数据平台天然就是基于云计算来实现。而数据交换,算法交易则需要一个商店,云端就是目前最好的商店。不管是数据的互通,还是基于云端预训练、托管的机器学习模型,将促使每个公司的数据产品都能大规模地利用算法智能。
我们看一个现实的场景,未来的机器人怎么生产运作:
DT时代之前的机器人,都是离线的,它们各自分开,软件的升级与知识的共享变得基本不可能,它们是“死”的。DT时代的机器人,它们都是在线的,可以在线升级,知识共享,他们是“活”的。
机器人作为终端,可以理解为一个数据产品/应用,负责跟用户交互,交互的过程中会使用,消耗数据,使用基于云端的智能化服务。同时,它在跟用户交互的过程中,也会产生数据,并会把这些数据上传到云端。
云端基于大数据技术平台,搭建一个云端大数据中心,并在这里运行着很多基于算法的智能化应用,如智能语音,智能图像识别,机器学习模块等等。这些智能模块负责跟机器人通讯,并指导机器人的运转。更重要的是,它会自动学习机器人终端采集到的数据,使得云端变得更聪明,进而促使机器人更聪明,实现 正向反馈闭环。每一个机器人采集到的数据,通过云端的机器学习之后,可以同步到所有的机器人。
机器人公司不一定需要自己生产终端,他只需要把他的需求提交给市场,市场上就会有机器人终端的提供者,这是工业时代的商业经济。
机器人公司也不需要自己研发云端的基于算法的智能化模块,它可以采购,整合使用别人的智能算法,服务。而且,如果别人有了更好的算法与服务,该公司也可以随时替换,让自己的技术始终处于领先优势,这是DT时代的算法经济。最后,机器人公司觉得训练的数据不够,他们也可以生产,采购一些新的数据,通过智能化的机器学习,让机器人拥有新的能力。
这一切,就是DT时代的大数据经济,基于数据的新商业时代。