上一周,谷歌又发布了一项破纪录的AI研究,不过这次的研究结果是对目前 AI 商业化热潮的一盆冷水。传统上大家都认为科技企业的生态系统是靠小公司颠覆大公司、大公司随之瓦解,从而保持创新和非垄断的,消费者和整个科技经济都逐渐变得越来越依赖这种模式。可是当科技竞争的武器成为机器学习,而机器学习又需要用海量数据训练的时候,想要正面打败一个科技巨头就会变得前所未有地难。
对于把 AI 作为发展核心的公司们来说,囤积数据作为一种防御策略已经得到了充分的讨论和执行。谷歌、微软等等公司已经开源了许多软件甚至硬件设计,给更多人提供了丰富的工具,但是对喂给这些工具的数据却是越发守口如瓶。科技公司确实会发布一些数据,谷歌去年发布了一个来自7百万个YouTube视频的大型数据集,Salesforce也发布了一个来自Wikipedia的数据集用于让机器学习模型学习人类语言。但是 AI 开发实验室 Manifold 的合伙人、劳伦斯伯克利国家级实验室的访问学者 Luke de Oliveira说,(正如我们所想的那样)这些公开的数据对潜在的竞争者来说往往没有多少价值。“那些会影响自家产品保持市场地位的关键数据,他们是永远也不会公开的”,他说。
谷歌和CMU的研究者确实表示他们希望这项对于海量数据价值的研究可以催生出跟谷歌的数据规模类似的超大规模开源图像数据集。“我们由衷地希望这项研究可以激励视觉研究社区重视数据的重要性,并且集合多方力量建立更大的数据集”,他们写道。CMU的 Abhinav Gupta也参与了这项研究,他说有一种方法是与通用视觉数据基金会(Common Visual Data Foundation)合作;这是一家由Facebook和微软发起的非营利机构,它就已经发布过一些开源图片数据集。
与此同时,手中数据少的公司如果想在数据的“富人”能靠数据变得更聪明的世界中生存下来,得自己变得有创意一点。初创公司DataRobot的CEO Jeremy Achin就猜测小公司们之间可能会共享数据来让他们的风险预测能力可以与体量大的竞争对手匹敌。这种做法以前在保险业中见过,未来可能变得越来越普遍,因为机器学习已经在越来越多的各界企业中展现了它的重要性。
未来机器学习的发展如果能够降低对数据量的需求,是有可能颠覆当下 AI 的“数据”生态的,Uber去年就收购了一家做这方面研究的公司。不过即便现在也可以尝试回避局内 AI 玩家的常见数据优势。一家研究如何提高机器学习易用性的公司 Fast.ai 的联合创始人 Rachel Thomas 说,初创公司可以另辟战场,在互联网巨头的视野之外寻找机器学习的应用场景从中获利,比如农业方面。“我觉得这些大公司不见得在每个地方都有很大的优势,其实许多特定领域内的数据根本就没人收集”,她说。在她看来即便是人工智能的巨头也会有盲点。