2014中国大数据行业大调查:人才仍然是个大问题
时至今日,无论你是来自互联网行业、通信行业,还是金融行业、服务业或是零售业,相信都不会对
大数据感到陌生。据调查报告显示,32.5%的公司正在搭建
大数据平台,处于测试阶段;29.5%的公司已经在生产环境实践
大数据,并有成功的用例/产品;24.5%的公司已经做了足够的了解,开发准备就绪;基本不了解的只占3000+用户的13.5%。
其中,大家对
大数据平台提出的的主要需求有:36.5%是进行海量数据的离线处理,比如
大数据BI;23.2%是为了大量数据的实时处理,比如在线交互式分析;40.3%的公司的
大数据平台则同时负责这两种业务。
传统观念下,
大数据往往是大型互联网公司的玩物。然而,通过本次调查,我们却发现在那些对
大数据平台有需求的公司中,研发团队规模远没有我们想象的大,29.11%的研发团队仅有1-10人,次居第二的10-50人的规模占到了25.77%,两种规模的研发团队就超过了一半。可见,当下
大数据的需求已不止步于大型公司。
研发团队规模
从传统架构到
大数据时代应用程序架构的转变往往都会遇到一些问题和挑战。在对计算框架门槛调查中,非专业人士难于入手这一难题的比例达到了46.5%,这对企业人才的培训提出了迫切的要求。
当下计算框架使用过程中存在的问题
打造
大数据平台需要企业克服诸多问题和挑战,尤其是安全性和可靠性方面。
大数据技术在开发者或从业人员的应用中逐步走向成熟,这些成熟的技术在开发人员的探索中得到了初步的稳定发展,公司的使用便是对这些技术的肯定。包括开发语言,
数据分析语言、
数据库等在内的
大数据工具,究竟哪个更适合自己的业务,相信开发者们都有自己的评判标准。
在众多的开发语言中,
大数据平台开发者们尤为青睐Java,占到了总比例的65%, 远远超过其他开发语言。值得一提的是,Hadoop本身就由Java实现的。
在大
数据分析语言中,SQL的使用比例达到了64%,是
R语言使用者人数的2倍之多。我们从中不难看出SQL-on-XXX项目的前景;同时从R的支持率上,也看到了更多非技术人员,比如
数据分析师对低门槛分析类语言的需求。
在
大数据存储上,HBase则以67.55%的比例位居榜首,远超其他数据仓库,当然这点与Hadoop原生支持是分不开的。
对存储在HBase或Cassandra这样NOSQL
数据库中的数据进行复杂查询,Solr、Elasticsearch、Splunk等主流的搜索引擎差距并不大。
对存储在NOSQL
数据库中的数据进行复杂查询,比较合适的工具
诚如上文所说,许多对
大数据有需求的公司并不一定具备强大的研发团队,在
大数据处理过程中往往遭遇众多挑战。那么,在面临这些挑战时,开发者最迫切需要的是什么?
为了解决公司中的实际问题,39.28%的人希望拥有更犀利和通用的计算框架;37.88%的人希望能拥有更好的
数据挖掘算法;21.59%的人则对保障性更高的运维有了更多的期盼。
为了解决公司的实际问题,最希望拥有的新技术
良好的
大数据计算平台能够有效地支撑企业的海量数据,对于下一代通用
大数据技术平台,Spark和Hadoop是公司的主要选择。同时,我们也看到了新贵Spark的发展前景,对比老将Hadoop,差距也仅有3.7%。
现有公司中,
大数据平台已包含的部件位居前三的主要是SQL
数据库(90.3%)、NoSQL
数据库(50.7%)和HDFS(47.2%),在此基础上,公司计划添加的部件主要包含SQL
数据库(57.2%)、Spark(41.5%)和NoSQL
数据库(26.9%)。从各公司已有
大数据部件和计划添加的部件可以看出,SQL
数据库和NoSQL
数据库在公司的
大数据平台中发挥了重要的作用,得到了各公司的青睐。
为了获取更高的收益,企业在前期需要进行有效地成本投入,对
大数据平台的投资,公司更加不会吝啬,其中被调查的人群中,45.7%的人所在企业有追加投资
大数据平台的打算,同时,公司也期望能够通过多种途径完善
大数据平台,主要的完善途径包括基于开源平台自主研发、购买成熟的解决方案,使用公有云。
使用公有云也是企业期望完善
大数据平台的有效途径之一,在选择公有云平台方面,企业也面临着很大的倾向性,45.26%的人将阿里云作为首选。
公有云平台的选择
技术培训能够对开发者起到一定的指导作用,使得听众可以系统全面的把握新技术的知识脉络,了解技术的发展趋势。在此次调查活动中,69.4%的被调查者表示从未参加过
大数据平台构建的技术培训。对于技术培训的形式,49%的人希望是线上培训,收费,成系列型的
大数据解决方案,专攻一个方向,解决实际问题;37%的被调查者还是希望免费进行技术培训,即使不成系列,无论是线上线下,能听一节是一节。虽然收费在一定程度上影响了开发者对
大数据技术培训的热情,但是能够切实解决实际问题,得到技术和能力的提升,仍是相关技术人员追求的培训目标。
更适合的技术培训形式
那么,对开发者来说,大家特别期望从技术培训中获取的知识又会是什么?
写在最后
根据本次调查,我们不难发现,
大数据仍然只在少数公司的生产环境投入使用,造成这个情况的原因主要有两个:首先,当下的
大数据计算框架在使用上仍然存在很高的门槛;其次,受限于公司研发团队的实力。在
大数据平台打造上,大部分机构都期望通过自主研发来完成这个过程,同时也期望获得更符合使用习惯的计算框架,比如SQL。同时,在自主研发和购买解决方案添加
大数据属性之外,很多机构将注意力集中到云计算,其中国内云供应商阿里云45.26%的得票率更是值得欣慰(文章来源:36
大数据)