傅一平:为什么运营商大数据变现要搞 “行业知识图谱”?


作者:傅一平 就职于浙江移动大数据中心
淘宝用户每次交易会在淘宝数据库留存一笔记录,阿里基于这条日志可以知道你喜欢买什么样的商品,花了多少钱!

这个日志数据有巨大的商业价值,知道你喜欢什么东西阿里的阿里妈妈就可以做广告,广告主会为广告付费,知道你的消费能力阿里的蚂蚁金服就可以测算你的信用,从而通过金融工具赚钱,简单的一条日志记录造就了当今世界最大的两种大数据商业变现模式:广告和金融,你说传奇不传奇?

拥有数据的公司都想复制这个传奇,运营商从数据的角度来讲,却是很近的一个,为什么?

用户每次通话会在运营商的数据库里留存一笔记录,运营商基于这条记录知道你喜欢打哪个电话号码,打了多少次!

这个实际就是通话详单,但可惜的是,运营商没法通过这个数据直接商业变现,因为电话号码只是个数字,没有任何业务价值。

但如果运营商知道你打的电话是个三替家政号码,情况就不一样了,跟阿里知道你购买了某个品牌的电器一样,它们都代表了一种消费偏好,只要知道了用户消费偏好,就有广告主愿意为精准投放付钱。

但你会发现有一点不同,淘宝的商品名字是直接的业务表达,而通话详单的号码则是间接的业务表达,比如95588就没啥意义,但如果你知道95588业务含义是工商银行,那数据的价值就不一样了。

将95588这个号码转换成对应的业务含义,就是笔者说的行业知识图谱,行业知识图谱可以将索然无味的通信话单日志翻译成用户行为信息,让运营商的大数据焕发出新的生命力,做了这层转换,我们才能说运营商的大数据是服务全行业的,而不是局限在通信行业。

作用有多大呢?

就好比百度地图,经纬度虽然很重要,但百度只有将经纬度转化成业务坐标,即POI,百度地图才有实际的价值,我们有时抱怨百度地图导航不准确,很大一部分原因是经纬度对应的地址信息没有更新。

未来的运营商大数据加工的一个方向就是行业知识图谱的打造,其将使得运营商对于用户的洞察更加深入,从而奠定大数据变现的基础,最近浙江移动三墩IT人公众号发布了一篇文章《浙江移动“神灯·大数据行业知识图谱”隆重发布》,笔者就来解读下

一、行业知识图谱体系

首先需要规划一个行业知识图谱体系,运营商可以基于自身实际的数据能力和变现实践,选择重点行业进行突破,比如电商、金融、图书、视频、招聘等等,到底分多少大类,每一个大类深耕到多大级,可以依实际需要而定,浙江移动的神灯·大数据行业知识图谱构建了38个一级行业,487个二级行业,比如金融行业深耕到四级共108个子类,餐饮行业已经深耕到三级共80个子类等。

大数据_数据分析_运营商大数据_为什么运营商大数据变现要搞 “行业知识图谱”?

以下是一个示例,方便理解:

大数据_数据分析_运营商大数据_为什么运营商大数据变现要搞 “行业知识图谱”?

二、行业知识图谱的获取

行业知识图谱的信息大多来自于网上,主要靠爬虫获取,那么,具体选择哪些需要爬取的内容呢?

运营商有什么数据需要翻译就需要爬取这些数据对应的业务含义,比如号码(TO B)、位置、网址URL、内容ID(视频、阅读、音乐等等)等等。

下图是个视频解析的示例,能够还原出原始URL日志中附带的视频ID对应的业务含义,有了这个知识,下次任何用户的原始URL日志中附带有这个ID,就能直接判断内容了,这个奠定了用户洞察的基础。

大数据_数据分析_运营商大数据_为什么运营商大数据变现要搞 “行业知识图谱”?

但要实现这个功能,对于运营商的技术要求其实是比较高的,主要包括以下几个关键技术:

1、DPI等原始数据的输出和解析:也就是要将运营商的原始数据转化成适合爬取的格式,比如原始的URL根本是没法爬取的,往往需要做URL的拼接和转化才能还原出内容页面,这里面有太多的细节需要研究,针对不同行业,不同业务可能需要不同的转化形式,往往需要一个一个行业来,一个个网站来,起步的时候要靠人堆上去,没有什么捷径。

2、打造一个分布式的爬虫引擎:当前商业化的爬虫产品并不多,因为不仅要适配企业的大数据平台既有组件,也要能灵活满足运营商特定的爬取格式要求,比如浙江移动大数据中心就自研了一款B/S架构的云端爬虫平台,能将一张张异构的互联网页面转变成一条条结构化的数据,并能按照一定的策略设置与数据源保持同步。

大数据_数据分析_运营商大数据_为什么运营商大数据变现要搞 “行业知识图谱”?

3、自然语言处理:爬到的内容格式往往是杂乱无章的,要能对这些内容按照知识体系的要求进行结构化并分门别类,需要用到自然语言处理技术,比如你不仅爬取了淘宝的商品目录,也爬取了京东的商品目录,那么怎么整合成为统一目录呢?靠的就是这种技术,这是绕不过的,行业知识图谱结构化程度越高,前端业务的使用就越方便,商业变现就越容易。

大数据_数据分析_运营商大数据_为什么运营商大数据变现要搞 “行业知识图谱”?
三、行业知识图谱的数据架构

行业知识图谱从数据流的角度分了四个层次,也可以认为是建模的四个层次:

1、知识层:基于通信数据获取要解析的要素,输入爬虫引擎获得行业知识库。

2、事件层:基于行业知识库将通信详单转化成具有业务含义的事件清单,这些事件清单就有完整的业务含义。

3、整合层:基于事件清单形成融合模型。

4、标签层:形成对用户的行业洞察。

大数据_数据分析_运营商大数据_为什么运营商大数据变现要搞 “行业知识图谱”?

四、行业知识图谱运营团队

行业知识图谱的建设是个体系化工程,因为行业在变化,需求在变化,信息在变化,比如视频网站的结构变化了,这个时候爬虫就要与时俱进,号码业务含义变化了,知识库也要能做到动态更新,因此,需要组建有专门的团队来作持续的运营,包括行业知识图谱规划、规范制定、需求分析、爬虫配置、知识库更新、模型开发等系列工作。

运营商有价值的数据大多都是管道型数据,但跟互联网公司不同的是,人家的数据都是自带业务属性的,大多能够直接拿来变现,运营商的管道数据则好比页岩油,虽然潜在价值很大,但开采的代价很大,有用和能用是两码事。

运营商大数据变现有几年了,当前面临着规模化的挑战,但直接能用的数据在面对商业化的考验时,有时会发现马上能用的数据不是多了,而是少了,笔者倒觉得不是少了,而是视野窄了,能力弱了,生产力已经跟不上生产关系的发展了。

运营商需要在变现上转变思维方式,要能够立足长远,做好能力的储备,用工匠的精神去持续打磨数据,深挖数据的价值,从而大数据变现闯出一片新的天空。
来源:与数据同行