2018年中国大数据BI行业报告:自然语言生成和人工智能成为新标准特征


近年来,随着人们的数据意识和数据素养不断提升,商业智能和数据分析领域迎来了快速发展期, 据Gartner商业智能报告统计,到2020年全球的商业智能市场容量预计将达到228亿美元 。同时,大数据、人工智能、机器学习、深度学习等技术的快速发展,也促进了商业智能和数据分析产品的新一轮进化。 Gartner分析师认为,到2020年,自然语言生成和人工智能将是90%的新BI平台的标准特征,50%的分析查询将使用搜索、自然语言处理,或语音生成,或将自动生成。

  但我们必须认识到,我国商业智能的市场特征、企业需求、关注点、发展阶段均与国外有所不同,以Gartner为代表的分析机构并不能准确描述我国商业智能行业的实际状况。针对这一问题,帆软数据应用研究院调研了规模不一的216家企事业单位,了解到他们的大数据BI应用状态、需求情况、对大数据BI产品功能的期待,同时基于帆软数据应用研究院对行业的长期观察和思考,形成了该篇报告。

  主要预测:

  2018年,中国大数据BI产品将主要在自助分析的可操作性和功能丰富度、平台的安全性、数据管理能力、分析的共享能力、数据挖掘能力、大数据处理能力六大功能模块进行提升。

  一、2018年中国商业智能行业发展分析

  (一)行业总体形势向好

  在当前经济环境下,企业盈利的压力和难度不断增加,越来越多的企业,尤其是一、二线稍具业务规模的企业,其高层都希望通过精细化运营提升市场竞争力,降低企业的运营成本。这些企业绝大多数都已经在2008年-2015年间上线了各种业务系统,存储了大量管理和运营数据,具备应用大数据BI进行数据分析和数据化管理的各种条件,这些需求将在2018年-2022年继续爆发。值得注意的是,艾瑞咨询在《2017年中国商业智能行业研究报告》中指出,我国已经进入商业智能领域第一方阵,成为发展最快的国家之一,但和美国还有比较大的差距。所以未来中国大数据BI行业总体将呈现加速度增长,市场容量将不断扩大。

  (二)大数据BI厂商马太效应显现

  马太效应是指强者越强,弱者越弱的现象,国内BI行业的马太效应已经显现,综合实力强大的厂商更能投入资源做好产品、服务,解决更多用户的需求和问题。可以预见,2018年中国BI行业马太效应将进一步增强,逐步淘汰掉实力弱、规模小、产品差的企业。

  (三)新型自助式BI与传统型BI平分秋色

  得益于敏捷、自助的特征,从2013年起新型自助式BI迎来了高速发展期,这一时期也是传统型BI的衰退期。

  2017年,传统型BI与新型自助式BI在国内市场中平分秋色。受访企业中,约50.2%的企业仍然在使用传统型BI,其中最典型的需求是企业常规日报、月报等汇总分析报告。约49.8%的企业应用新型自助式BI,通过报表平台+自助式BI+大数据底层平台的解决方案,来解决企业综合的数据展示和分析需求,形成经营和战略决策。

  在调研中我们注意到,约有18%的企业引进了新型自助式BI,部分或全部替代了传统BI。虽然传统型BI有其自身优势和应用场景,但随着新型自助式BI的不断发展,传统型BI必将逐渐退出历史舞台,从国际传统BI巨头积极调整产品结构可见一斑。

  二、2017年中国商业智能用户状况分析

  根据企业的IT人员和业务人员在数据分析中的工作量和投入程度占比,我们将BI用户(企业)划分为5大类型,即BI应用金字塔模型,以更好的统计、分析企业的BI应用状况。

  (一)BI应用金字塔模型

  1.IT完全主导型

  其典型特征为,IT人员做底层数据仓库,以及BI工具层面的数据模型处理的所有相关工作,完成95%以上的BI分析页面(注:主要是指用于生产、经营、管理会议所需要的数据分析页面,下同)的开发。业务人员仅负责前端数据查看,完成查看报表时相关联动钻取操作。

  调研中我们发现,处于“IT完全主导型”这一等级的企业,约有93.2%都在使用传统型BI工具,企业的业务人员基本没有能力,也没有需求去自主完成数据分析的工作。这些企业的业务变革并不剧烈,企业管理层认为当前的日常数据报告能够满足企业管理和决策的需要,相对缺少变革的动力。

  2.IT强主导型

  其典型特征为,IT人员做底层数据仓库,以及BI工具层面的数据模型处理的所有相关工作,完成80%~95%数量的BI分析页面。业务人员完成低于20%数量的BI分析页面。

  从调研数据来看,这类企业中,67.5%的企业认为当前业务人员不具备数据分析的能力。而企业需要快速完成部分数据分析工作,所以选择让IT人员更多承担工作。这类企业中普遍认为,商业智能产品本身并非能够快速上手,且业务人员仍需要统计学基础,阻碍数据分析工作从IT人员向业务人员的转移。

  3.业务强主导型

  其典型特征为,IT人员做底层数据仓库,以及BI工具层面的数据模型处理的所有相关工作,完成前期示例不超过20%数量的BI分析页面。业务人员完成超过80%数量的BI分析页面。

  从调研数据来看,这类企业中,超过80.2%是曾经推行传统BI的企业,并且部分业务人员是有较高学历和能力的,能够学习和掌握商业智能工具和数据分析技能,并愿意在工作中积极使用;从帆软数据应用研究院的实地走访的部分企业来看,这些企业普遍行业排名靠前,公司从高层就重视数据分析工作。

  4.业务完全主导型

  其典型特征为,IT人员做底层数据仓库,以及BI工具层面的数据模型处理的部分相关工作。业务人员完成95%以上数量的BI分析页面和相当部分BI工具层面的数据模型处理。

  相比于第三类使用人群(业务强主导型),这类用户的一大特点是业务变革十分迅速,从事业务工作的人员学历普遍较高,业务经营和发展需要企业快速做出决策。而基于数据分析得出的业务判断相比个人历史经验准确度更高,是这类企业基本共识。比如在新兴的互联网企业,或者新零售领域,这个特点尤为突出。

  5.智能自助型

  其典型特征为,IT人员只做底层数据仓库、数据连接、数据字典相关工作。业务人员处理所有BI工具层面的数据处理,以及所有BI分析页面。

  IT人员搭建数据中心,业务人员完全自主处理和分析数据,这类企业有着明显的资源密集型的特点,业务人员更多的是偏向运营相关的工作。当然,因为此类受访企业占比较少,原因分析的可信度还有待进一步调研来核实。

  (二)BI用户状况分布

  基于BI应用金字塔模型,2017年企业分布如下;

  从调研数据中,我们可以得出两大结论。

  1、 IT人员主导企业数据分析的模式仍占据主流,也就是IT驱动仍是2017年企业商业智能平台应用现状 。从数据调研的受访企业来看,有高达60.5%的企业的数据分析工作仍是第二类型(IT强主导型),甚至有21.5%的企业的数据分析工作处在第一类型(IT完全主导型),这显然和业务人员自助数据分析的目标距离遥远。

  2、新型自助BI正在成为商业智能市场的主流。17.5%的企业是在2017年上线了新型自助BI,实现了让少部分业务人员自助完成BI数据分析的目标。

  三、2018年商业智能用户需求分析

  (一)企业多级部门数据分层次IT权限和平台管控,占受访企业97.6%

  需求描述:BI工具支持企业的多级部门的数据/分析页面权限管控,使得不同层级的部门机构只能看到本部门机构和辖属部门机构的数据/分析页面。

  需求产生的原因:有的信息中心为释放压力,放权给业务部门使用数据,一旦口子打开,数据缺口就会像洪水一样泛滥,就又会走向另外一个极端,导致放权下的数据管理混乱,数据口径不统一,部门之间的数据壁垒等等问题就会出现,同时这将给企业带来极大的数据安全隐患。

  满足该需求对企业的价值和意义:在满足业务部门BI数据自助分析的同时,兼顾企业的数据权限管控,形成企业以IT部门集中管理下的良性数据分析风貌,杜绝企业数据安全隐患。

  (二)业务人员可通过BI工具进行自助数据分析,占受访企业94.5%

  需求描述:业务人员可以在浏览器前端,对自己权限范围内的数据进行多维拖拽探索和自助分析,发掘隐含在数据中的业务价值。

  需求产生的原因:企业的传统信息化建设中,IT信息中心对公司数据进行高度集中的管控,来自企业各职能部门的数据处理以及报表就会全部由IT人员来输出,一旦业务部门需求集中扎堆,就会造成响应不足,业务部门怨声载道。信息中心自身成员熬夜加班做报表,成就感却很低。

  满足该需求对企业的价值和意义:通过高效灵活的BI工具,业务人员对自己权限范围内感兴趣数据进行多维拖拽探索和自助分析,以工具简单易上手的低学习成本,让真正对分析业务价值最熟悉的业务人员实现自助数据分析探索,最大化业务数据的分析维度和分析效率,灵活发掘数据中可能潜在的业务价值,同时也解放了IT人员的劳动力,降低企业人力成本。

  (三)可快速搭建型自助BI业务数据模型,占受访企业87.5%

  需求描述:数据库表中的数据需要基于业务分析主题进行分类管理,相关数据表之间支持手动/自动构建关联模型,同时建立的关联模型支持灵活应用,无需反复编辑修改或创建新的模型,一次建立即可灵活满足多重业务场景进行数据分析使用。

  需求产生的原因:传统BI工具创建的底层数据关联相互独立,无法重复利用,一旦遇到新的业务数据计算分析场景,数据关联就需要修改或重新创建,极为麻烦,非常不利于IT人员维护。

  满足该需求对企业的价值和意义:通过BI工具快速构建的新型自助式BI业务数据模型,较传统BI工具针对不同业务分析场景需要多次、重复建模的应用痛点,极大地提高了BI工具的企业中业务数据分析应用的效率,解放了以往IT人员对数据维护的压力。

  (四)OLAP多维分析:上卷、下钻、旋转、切片、联动、跳转等,占受访企业84.5%

  需求描述:BI工具支持强大的页面OLAP多维分析功能,包括分析视角的上卷、下钻,维度的旋转切换,指标的切换,分析数据的切片过滤,组件之间的联动过滤、页面超级链接跳转等。

  需求产生的原因:随着业务发展的复杂化,单一角度的数据分析往往难以再发掘出更多有价值的潜在业务信息,取而代之的是需要BI工具能够满足强大的页面OLAP多维分析功能。

  满足该需求对企业的价值和意义:通过BI工具强大的OLAP多维分析功能,以实现多角度、多关联数据之间的数据无限层次探索分析,发掘出数据中潜在的业务价值。

  (五)大数据处理性能处理能力达到十亿数据秒级响应,占受访企业63.6%

  需求描述:BI工具可支撑处理亿级以上大数据分析计算的秒级响应,提供多维加速引擎对传统关系型数据仓库(SQLServer、Oracle、Mysql等)进行数据提速处理,同时也支持实时对接企业大数据平台(Vertical、Kylin、Greenplum等)进行数据分析计算。

  需求产生的原因:一方面,传统关系型数据库在面对上亿级别以上数据量时,容易出现性能瓶颈,长时间的查询等待往往会导致业务数据分析效率太低。另一方面,当今信息化水平飞速发展,越来越多的企业已经有了自己的高性能大数据平台,对于这部分企业来说,拥有一款能够直接对接大数据平台进行数据分析的工具尤为总要。

  满足该需求对企业的价值和意义:BI工具提供的强大数据计算处理引擎,能够降低企业数据查询等待时间成本,提高业务数据分析效率。同时,通过直接对接企业大数据平台,还可满足企业实时数据分析的需求。

  (六)业务人员可完成工具层面的零代码数据加工处理工作,占受访企业57.5%

  需求描述:BI工具可通过快速易上手的交互方式,让业务人员也能完成工具层面的零代码数据加工处理工作,例如例如表合并、分组统计、结构数据分层、过滤、增加列、同比环比、累计值、所有值、公式运算等数据清洗和数据处理方法,实现对数据的无限层次多维透视分析统计。

  需求产生的原因:当业务需求相对偏复杂时,简单的维度和指标统计往往无法直接计算出业务所需要的计算结果,以往的处理方式往往可能是业务部门提需求给IT,然后IT经过SQL或者代码对底层数据表加工处理,然后最终导出一张excel数据表给业务部门,期间的反复沟通和等待时间往往降低了企业的业务数据分析应用效率。

  满足该需求对企业的价值和意义:通过BI工具,使得业务人员也能快速实现对数据的无限层次多维透视分和析加工统计,降低了传统模式下的沟通成本和等待时间,提高了企业业务数据分析的应用效率。

  (七)移动端数据分析查看支持,占受访企业44.9%

  需求描述:BI工具支持移动端数据分析多维分析查看功能(兼容PC端的上卷、下钻、旋转、切片、联动、跳转等),对于BI工具的应用app支持便捷的扫码登陆、离线查看、批注、分享等功能,同时满足某些社区平台如微信、钉钉的企业公众号集成。

  需求产生的原因:在当今这个移动设备便捷时代,仅仅PC端的数据分析已经不能满足某些特定时间和场所的业务分析需求了,而BI对移动端的支持已经成了必然要满足的功能点。

  满足该需求对企业的价值和意义:通过移动端的BI分析查看,使得数据分析不仅仅局限于PC端,较大地增强了数据分析的便捷性。同时微信和钉钉的集成接入,让业务通过社区平台也能直接查看想要的数据分析页面,更是为移动端数据分析锦上添花。

  四、中国大数据BI产品功能预测

  结合用户需求调研,和我国BI厂商的产品计划研究,2018年如下六个大的功能模块将会得到增强。

  (一)提升自助分析的可操作性和功能丰富度

  为满足业务人员可通过BI工具进行自助数据分析的需求,中国大数据BI产品需要改善自助分析的功能和可操作性,包括图表的丰富性。

  前端布局自定义搭配,让业务人员随心所欲布置。比如仪表板自由布局,可快速拖拽生成所需要分析的页面;在全面支持常见的柱状图、条形图等图形基础上,增加支持中国(世界)地图、GIS地图、桑基图等大数据图表;

  为了适应更加多样的用户,大数据BI平台需要支持强大的OLAP多维分析功能,包括分析视角的上卷、下钻,维度的旋转切换,指标的切换,分析数据的切片过滤,组件之间的联动过滤、页面超级链接跳转等。业务人员在OLAP多维分析的基础上,能够在数据分析查看时,再次对所有维度进行二次的维度指标加工,并无限层次多维透视分析统计,全面开放业务人员对数据的处理和分析操作,以满足当前中国用户多个视角、多个层级的分析需求,把传统业务分析的智慧充分沉淀到数据分析系统中来。

  为了给不同用户提供个性化的视觉体验,大数据BI平台支持表格动态数值预警功能和图形设置动态警戒线,支持图表样式风格自由拖拽调整。同时,也需要大数据BI平台智能自动设置预警值和样式风格等。

  (二)提升平台的数据挖掘能力

  为满足企业业务人员自助数据分析和自动挖掘的需求,中国大数据BI产品需要在已有的数据可视化数据分析的功能基础上,增强数据自动挖掘能力,使业务人员在能够掌握挖掘基本概念的基础上,深入挖掘分析业务数据,为业务运营提供数据结论支持。

  大数据BI平台需要支持嵌入式高级分析功能,用户能够轻松使用平台内置的高级分析功能,也可以通过导入和集成外部开发的高级分析模型。比如平台内含数据挖掘常见算法(如线性预测、时序预测、聚类、分类等),或者提供外接其他数据挖掘平台和工具的可视化接口(如R语言或者Python语言),甚至内含适合特定业务场景的挖掘模型。

  (三)提升平台大数据处理能力

  为满足企业对大数据BI平台实时响应的需求,中国大数据BI产品需要将当前大数据处理能力提升一个量级,达到10亿数据量秒级响应水平,同时支持丰富多样的数据源。

  大数据BI平台需要支持丰富的数据源,如企业主流的关系型数据库大数据平台、NOSQL数据库以及多维数据库,需要支持实时对接数据平台和分布式引擎拓展,同时支持跨数据源关联,同时支持对较大级别数据量进行数据抽取和索引建模,提高数据分析效率。

  (四)提升平台的数据管理能力

  为了满足中国企业业务人员用户对数据处理的需求,中国大数据BI平台需要提升自身的元数据管理能力、数据的ETL处理能力、数据存储能力。

  提高元数据管理能力,使得用户能够集中管理元数据,包括对元数据进行检索、提取、处理、存储、分享复用和对外发布。中国企业的业务人员将需要在数据分析的过程中,直接操作经过IT人员标准化处理的元数据。

  近几年来,中国数据分析人才迅速增加,企业中也成长出一批有一定数据分析能力的业务人才,这些中国企业业务人才更多的是需要对数据进行ETL处理和存储,这就需要平台功支持用于查询、提取、转换和加载的功能,具有索引、管理、调度数据的能力。

  (五)提升平台分析的共享能力

  随着ERP、OA、MES、HIS等常见业务系统的完善,企业少则数十套IT系统,多则上千套系统。新型自助BI需要能够与多个系统同时融合,全面分析企业的业务数据。这就需要中国大数据BI产品需要加强产品与不同软件系统的集成融合能力,这是中国企业面临的共同难题。大数据BI平台需要支持嵌入式部署,如主流的应用服务器,支持跨平台的权限集成和页面集成。

  大数据BI平台不同用户创建的分析页面,可以方便地分享给其他成员。同时,在企业的分析用户设计仪表板时,可以复用仪表板中的图表、维度、指标等,支持用户分享指定页面进行给其他部门成员,便于互动沟通交流。

  为满足企业人员实时办公、互通信息的需要。大数据BI平台还需要支持移动端上共享和查看分析结果,支持在移动端对分析结果进行数据层级钻取穿透、联动等。

  (六)提升平台的安全性

  为了满足企业多级部门同时使用、不同权限的功能,中国大数据BI产品除了要提供灵活丰富的用户管理功能、权限控制功能,还需要内置强大的用户行为监控与分析功能,确保企业的数据安全和信息保密。

  大数据BI平台将支持持批量导入用户,支持同步企业统一权限管理数据库中的用户,以企业IT系统统一的用户管理方式进行用户管理。支持用户以企业IT系统统一的用户权限认证方式进行权限管理。同时,需要支持短信平台功能,并可用于用户账号身份验证等,多种用户和权限管理方式,来满足广大中国企业的不同的安全级别要求和安全管理策略。

  随着大数据BI在中国的发展,中国企业自身的大数据BI平台已有众多员工账号。这就对大数据BI平台提出新的挑战,除了要拦截非法用户,还要对大数据BI平台有效用户进行有效监控。2018年,大数据BI平台需要支持监控用户的操作行为,支持监控页面被访问的频次、访问来源,甚至是支持监控访问到的数据范围。

  为了保证大数据BI平台系统持续支持企业经营管理,需要大数据BI平台支持系统数据迁移到企业数据库,支持对系统进行备份与还原,备份可以手动或设置周期定时备份。同时,支持云端服务器部署和本地服务器部署,支持多机热备,达到企业的灾备要求。此外,为了有效避免BI平台出现严重异常,还需要支持监控自身的运行性能,遇到系统性能风险,提前给出系统预警信号。
来源:亿欧网

39期数据分析师课程海报_上海数据分析网