图丨第四范式联合创始人&首席架构师 胡时伟
来源:数据猿 记者:郭敏
2007年1月28日,图灵奖得主、关系数据库的鼻祖Jim Gray独自驾船出海失踪,并留下了一份珍贵的“遗产”—《第四范式:数据密集型科学发现》。在这份文稿中,Jim Gray将人类科学的发展定义成为四个范式:几千年前,记录和描述自然现象的行为是“实验科学”,即第一范式,典型案例如钻木取火;数百年前,科学家们开始利用模型归纳总结过去记录的现象并发展出了“理论科学”,即第二范式,典型案例如牛顿三定律、麦克斯韦方程组等;过去数十年,计算机的发明让“计算科学”成为可能,即第三范式,典型案例如模拟核试验、天气预报等。
然而科学的发展并未止步于模拟核试验,Jim Gray认为随着数据量的增长,计算机不仅能进行模拟仿真还能实现智能,他将这种科学研究的方式称为第四范式。第四范式联合创始人&首席架构师胡时伟说:“在Jim Gray的定义中,第四范式的本质就是利用机器对数据进行理解和分析,最终实现智能,与我们的初衷一致,这也是公司为何以此命名的缘由。”
人工智能是目标 机器学习是手段
随着数据的积累和算法技术的不断进步,越来越多的公司希望借助机器学习来解决实际问题。在过去的几年里,各大公司纷纷开源了自己的机器学习框架,但即便如此,机器学习仍然非常“昂贵”。胡时伟说:“想要获得成功的机器学习解决方案,需要完成问题定义、特征工程、算法调优、模型评估、线上应用和模型迭代等多个环节。”机器学习有较高的技术门槛,主要体现在分布式架构和计算能力与数据流的上下游紧密结合,以及算法间无标准化实现等技术难题上。
较高的技术门槛让众多企业望而却步,2015年,为了突破技术上的辖制,降低机器学习的门槛,以人工智能技术为主的第四范式公司成立了,旨在通过自身所掌握的机器学习技术对数据进行精准预测与挖掘,帮助企业提升效率、降低风险。
成立之初到现在,第四范式一直遵循“人工智能=机器学习+大数据”的法则。胡时伟告诉数据猿记者,大数据分为两部分:一部分是指数据本身,另外一部分是指大数据平台。在大数据平台上运行机器学习程序,把人工智能变成一个具备决策能力的应用,发挥其精准营销、风险评估等能力,并向各个行业输出。
第四范式率先在金融行业进行试水,典型的应用是为银行信用卡业务提供的交易分期智能营销系统。信用卡的主要盈利模式是客户分期还款的利息,胡时伟说:“在持卡客户中,一些人没有办理分期还款的需求,而另外一些人有办理分期还款的需求却不清楚如何办理,需要短信提醒,哪些人要提醒?哪些人不需要提醒?这是一个决策问题。”传统的解决办法是人利用专家规则对客户进行分群处理产生最终决策,周期长、任务重,而通过第四范式搭建的系统,只要源源不断的向系统输入营销记录(购买和以往分期记录)数据,就可以自动生成一个代替人去判断的决策。
为何把金融行业作为第一切入点?胡时伟给出的回答是:“金融行业不仅对信息安全有极高程度的要求,而且具备如江河般的数据源动力,金融的风险可能是人类共同的灾难,人工智能能够帮助金融行业做出更加准确地预判、评估风险。”
除了交易分期智能营销系统之外,第四范式还推出了通用平台“先知(Prophet)”,该平台聚集了数据免清洗、模型自学习、一键上线、弹性计算、实时数据流、智能数据集成、特征自动组合等特征。“先知” 平台能够自动化、智能化的实现机器学习全流程。以数据免清洗为例,大部分数据科学家有80%或更多的精力都花费在数据清洗上,而第四范式专利级的 “免清洗算法”功能,对于无效数据的容忍度极高,为AI“减负”。而先知平台的研发团队正是胡时伟带领的。
儿时被熏陶 对技术有浓厚的兴趣
作为公司的首席架构师,胡时伟带领产品研发团队打造出了国内首款人工智能全流程平台“先知”。在这之前,胡时伟曾先后任职于百度、链家网,而他对技术的痴迷要从儿时开始说起。
由于父母在医院工作的缘故,小学五年级的胡时伟在放学后经常到医院等父母下班。有一次,医院雇佣了三个计算机专业的在校大学生来设计信息管理系统,胡时伟十分好奇,天天与他们待在一起,三个月的时间系统交付成功,胡时伟也对IT产生了浓厚的兴趣。之后,胡时伟就经常通过电视来观看一些程序员的讲座,并仿写一些简单的程序系统,例如成绩单系统、自来水公司报表系统等,通过技术来解决一些实际生活中的问题让胡时伟很是兴奋。在选择大学专业时,胡时伟毅然决然地选择了上海交通大学的计算机专业。
2011年,研究生毕业的胡时伟加入了百度,一开始负责百度商业广告投放系统的运营和维护,之后随着百度内部的业务调整,胡时伟相继主持了百度商业客户运营、凤巢新兴变现、商业“知心”搜索、阿拉丁生态等多个核心系统的架构设计工作,个人的发展顺风顺水。
“当时在百度做的还不错,也获得了一定的认可程度,处于一个相对舒适的状态。”胡时伟说。2014年,他离开了原来的“舒适区”,加入了链家网创始团队,当时的链家网正处于互联网转型的初期,“去链家网主要是因为这是一个全新的领域和行业,我想尝试不同的东西。”在链家网任职期间,胡时伟带领团队完成了链家网新主站、经纪人新作业系统、绩效变革系统的整体架构设计,参与规划及推动了链家系统和研发体系的互联网化转型。
利用机器学习技术 打造出像windows一样的产品
在链家网任职期间,与之前同在百度共事的戴文渊进行的一次交流让胡时伟萌生了创业的念头。
戴文渊曾任职于百度,担任过百度凤巢策略技术负责人、商业产品技术委员会主席,并主持建设了百度的AI系统。二人一致认为,数据和计算能力的提升是不可逆转的趋势,AI是个有前途的技术,它应该像windows一样具有自己的操作系统和应用软件。胡时伟说:“当时,如果我们不做的话会错过机会。”
2015年,戴文渊、陈雨强和胡时伟成立了第四范式,戴文渊担任CEO,陈雨强担任首席研究科学家,胡时伟担任首席架构师。胡时伟说:“其实从链家网到第四范式是从一个垂直的行业走到了一个平台性的公司,我们的愿景是‘AI for everyone’,‘for everyone’代表第四范式不仅只服务一个行业,我们要为各个行业提供技术服务,但会有一个通用的核心,这个核心就是先知平台。”
胡时伟说,先知平台设计的初衷是把第四范式顶尖专家的能力赋予到以下两种人:
第一种是客户的员工。他们拥有数据,并对业务又十分了解,期望把数据转换成智能决策引擎,先知平台可以让某些具备一定水平的客户依靠自身力量就能做到这一点;
第二种是第四范式做项目交付的同事。先知平台可以降低构建企业AI应用的上手门槛,让更多的人具备数据科学家的能力,提升利用这个平台交付实施的效率,最终提升服务规模和服务水平,为更多更广泛的客户创造价值。”
目前,先知平台相继在金融、电商、媒体、零售、医疗、游戏等领域展开了应用,第四范式的AI的商业化的之路已经开启,但“觊觎”人工智能的公司又何止第四范式一家。
这几年,谷歌、微软、亚马逊、阿里巴巴、百度、腾讯、大疆创新、华大基因、图灵机器人和思必驰,既有以BAT为领衔的科技巨头与美国为首的全球科技巨头争夺未来,也有初创企业蠢蠢欲动。根据近日国务院印发《新一代人工智能发展规划》显示,到2030年人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元,胡时伟表示:“各家都在广泛撒网,但人工智能的红利还没开始,谈收割尚早。”