为何我国大数据市场规模不敌小龙虾?


今年以来,根据中国信息通信研究院《中国大数据发展调查报告2018》数据显示,2017年我国大数据市场规模为236亿元(该统计口径是大数据核心产业,包括大数据软件、硬件和服务的直接产值,不包括附加值)。而同年,我国小龙虾产业连年快速增长,市场规模超千亿元。为何,作为信息时代核心资源、未来战略高地的大数据产业,在经历几年的资本流入和产业发展之后,市场规模到头来还远比不上如此接地气的小龙虾产业?

Hype曲线透析大数据发展路线

为了客观看待这个问题,我们需要认识、了解新兴技术发展的Hype曲线。这是由Garnter公司公布的技术成熟度曲线,描述的是新技术、新概念在媒体上曝光度随时间的变化。图1是2016年Gartner公布的Hype曲线。任何新技术的出现,都会经历五大周期:一是炒作期;二是随着资本媒体的关注,达到一个期望峰值;三是新技术会遇到各种各样的现实问题,往往现实不如期望般美好,因此会有一个泡沫破灭的下滑期;四是产业开始脚踏实地解决一个个实际问题,慢慢推动新技术的应用和发展,从而进入稳步爬升期;五是随着关键短板的解决,技术会进入实质性的规模商用期,真正实现其价值。

Gartner Hype曲线_大数据_数据分析

图1 Gartner Hype曲线

如图1蓝色方框是大数据,经过前两年的炒作,大数据产业开始发现并面临一个个现实问题,只有解决了这些问题,才能真正推动大数据产业进步。值得注意的是,这个Hype曲线是Gartner2016年公布的,2017年Hype曲线并没有大数据产业,因为Gartner觉得大数据并非是新兴技术。因此现在2018年,大数据产业的实际位置应该相比上图再稍微下移一些。
 

需突破3个发展瓶颈

问题来了,既然大数据产业,现在面临不那么美好的泡沫破灭期,那么未来我们究竟要解决哪些瓶颈和桎梏,才能推动其真正步入稳步爬升期,体现出应有的价值?笔者认为主要有以下3个方面的问题亟待解决。

第一要解决“不会”的问题。大数据如果要作为产品和服务变现,那么首先需要建立起数据资产的概念,把企业积累的数据当做资产去经营。“不会”用数据分为3个层次。第一个层次是压根没有建立起数据资产概念的问题。目前我国三大产业90多个行业中,除了少数行业如金融、电信、互联网等行业的大数据探索起步较早之外,绝大部分行业对大数据技术认识不足,到底什么是大数据?该采集哪些数据?采集之后怎么用,能带来什么效益?绝大部分行业在这一层次的认识较为匮乏。第二个层次是有了大数据的意识,但是存在数据整合的问题。由于一个企业内部分为很多事业部,每个事业部又有多条生产线,除了生产数据,还有管理系统数据、营销数据、维修数据、客户数据等。多种内部的数据互相割裂,难以融合使用。第三个层次是数据实现了初步整合,但是没有统一的数据标准,数据质量难以管控的问题。同样的数据,在不同线条、不同事业部、不同部门间有不同的表征方式,对于主数据、元数据的管理极不规范,导致虽然能初步形成数据矿产,但是却是铁矿、铜矿,价值不高。

一言蔽之,“不会”是数据源企业内部的问题,要解决这个问题,亟待建立数据资产的概念,用科学的数据资产、科学的管理方法,把数据源形成可用的状态。

第二要解决“不敢”的问题。解决了数据源的原材料问题,接下来是数据流通的问题。根据《中国大数据发展调查报告2018》,企业运用大数据最多的领域,仍然是营销分析、客户分析和内部运营管理三大块(如图2)。这3块仍然是偏向内部应用。而企业使用的大数据的来源,主要是来自自身生产数据、用户数据、内部经营管理数据,使用的外部数据占比较小,整个大数据仍然处于“男耕女织”的相对封闭时代,其最根本的阻碍是数据的安全合规流通(如图3)。虽然我国已出台了大数据相关法律法规,但仍然存在很多空白地带,即灰色地带。在这些灰色地带,很多企业开始了尝试,但是这些尝试到底是合法还是非法,目前没有定论。

企业大数据应用场景_大数据_数据分析

图2 企业大数据应用场景

企业使用数据来源_数据分析_大数据

图3 企业使用数据来源

数据流通我国存在两极分化的现象。一方面,数据流通的“汽化状态”,即数据如空气般快速流通。但这样势必会忽视掉一些数据安全问题、数据泄漏问题、数据权属问题。例如前段时间山东的“30亿条”,就是有不法公司非法获取运营商数据开展营销、加粉等牟利。另一方面,是数据流通的“固化”状态,即数据根本不流通。我们也同样看到,一些手握优质数据资源大型企业,为了规避风险,一刀切、不流通,这样也同样不适应行业的发展。

为了解决这些问题,不能一味诉求于法律,因为法律不可能涉及到诸多场景细节;不能一味诉求于政府,因为行政资源是稀缺的,不可能兼顾方方面面。最靠谱的方法就是行业推动来解决,通过先选取某些场景进行试点,再推广开来,大家通过标准形成共识,一步一步解决这个世纪难题。

第三要解决“不清”的问题。前两个问题中,第一个是数据源自身的问题,第二个是流通中的问题,那么第三个问题便是与数据使用方相关的问题。目前,存在着很多“不清”:权属不清、估值不清、存证不清等。大数据与普通商品和服务不一样,A方卖给B方后,A方的使命就结束了,而大数据不是,大数据在经过层层流转之后,还保留着最初的印记,而A方与B方还有诸多“不清”需要解决。

首先是估值不清。当前在我国大数据产业,整体的商业模式大致可以分为3种,卖资源的、卖工具平台的、卖解决方案的(此处暂不讨论提供基础设施的)。对于后两种,有明确的商业模式和市场已有的参考。可是对于卖数据资源的,类似于一种无形资产,尚没有统一、达成共识的价值评估方法。这样就会形成不同的定价方式,高低价不均衡。

其次是权属不清。用户的个人数据,经过服务厂商采集、处理之后,权属到底属于谁?A方的数据流转到B方后,数据是属于A还是属于B?A方的数据通过B方加工之后,A方是否还对数据拥有主权?这些都是亟待解决的问题。今年8月份,杭州互联网法院宣判了我国首例大数据产品不正当竞争案,在这个案件中,由淘宝在收集巨量原始数据基础上,以特定的算法深度分析过滤、提炼整合并经匿名化脱敏处理后形成的数据产品,其权属是被肯定的,也给后续大数据相关纠纷提供了法律依据。

最后是存证不清。在大数据交易中,尤其是数据的多级交易中,数据授权、数据交易记录等极为重要,这些能对数据滥用、数据泄露产生约束,从而规范整个行业的行为。目前行业中已经出现了一些授权篡改、造假、伪造的情况,这会导致用户信息的泄露。针对这个问题,行业已经出现用区块链的方式,进行大数据的存证记录,后续有待进一步落地深化。

尽管如此,但我们相信,在大数据这几年“紧日子”的前途仍是光明的。当产业齐心协力,共同推动上述难点一步步解决,大数据应有的价值便会充分释放,熠熠生辉。
来源:网络大数据
CPDA数据分析师海报