随着信息化技术的日渐普及、宽带网络的快速兴起,以及云计算、移动互联和物联网等新一代信息技术的广泛应用,全球数据的增长速度进一步加快。与此同时,一批数据收集、存储、处理技术和应用快速发展并逐渐汇聚。软件运用的技术越来越尖端,结合不断提高的计算能力,从数据中提取有价值信息的能力显著提高。大体量的数据不再是无序而又没有价值的,大数据诞生了。
1 认识大数据
所谓大数据,就是从各种类型的数据中,快速获得有价值信息的能力。大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。它是对那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集所下的定义。
区别于过去的海量数据,大数据的特点可以概况为 4 个 V:Volume、Variety、Value 和 Velocity,即大量、多样、价值密度低、快速。
大数据技术是指从各种类型的大体量数据中快速获得有价值信息的技术。这是大数据的核心问题。目前所说的大数据不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发的目的是发展大数据技术并将其应用到相关领域,通过解决大体量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理大体量数据并从中获取有价值的信息,也体现在如何加强大数据技术研发。大数据所涉及的关键技术大致包括 6 个方面:数据采集与数据管理、分布式存储和并行计算、大数据应用开发、数据分析与挖掘、大数据前端应用、数据服务和展现。
2 大数据与 Hadoop
大数据技术正在向各行各业渗透。Hadoop 作为数据分布式处理系统的典型代表,已经成为该领域事实的标准。但 Hadoop 并不等于大数据,它只是一个成功的处理离线数据的分布式系统,大数据领域还存在众多其他类型的处理系统。
伴随大数据技术的普及,Hadoop 因其开源的特点和卓越的性能成为一时的新宠,甚至有人认为大数据就是 Hadoop,其实这是一个误区。Hadoop 只是处理离线数据的分布式存储和处理系统。除了 Hadoop,还有用于处理流数据的 Storm、处理关系型数据的 Oracle、处理实时机器数据的 Splunk…… 目前主流的大数据系统很多,Hadoop 只是其中的代表。
2.1 Hadoop 的核心模块
Hadoop Common:Hadoop 的公用应用模块,是整个 Hadoop 项目的核心,为 Hadoop 各子项目提供各种工具,如配置文件和日志操作等,其他 Hadoop 子项目都是在此基础上发展起来的。
Hadoop Distributed File System(HDFS):Hadoop 分布式文件系统,提供高吞吐量应用程序数据访问,并具有高容错性。对外部客户机而言,HDFS 就像一个传统的分级文件系统,可以进行增删改查或重命名等常规文件操作。但实际上 HDFS 中的文件被分成块,然后复制到多个计算机中,这与传统的 RAID 架构大不相同。HDFS 特别适合需要一次写入、多次读取的超大规模数据集的应用程序。
Hadoop YARN:一个作业调度和群集资源管理框架。
Hadoop MapReduce:基于 YARN 的大型数据分布式并行编程模式和程序执行框架,是 Google 的 MapReduce 的开源实现。它帮助用户编写处理大型数据集的并行运行程序。MapReduce 隐藏了分布式并行编程的底层细节,开发人员只需编写业务逻辑代码,而无需考虑程序并行执行的细节,从而大大提高了开发效率。
Apache 的其他与 Hadoop 相关的项目还有很多。
2.2 Hadoop 的特点
作为分布式计算领域的典型代表,Hadoop 比其他分布式框架有更多的优点。
在大数据时代,Hadoop 以其优越的性能受到业界的广泛关注,已经成为大数据处理领域事实上的标准。如今,Hadoop 在诸多领域大显身手。随着开源社区和国际众多国际技术厂商对这一开源技术的积极支持与持续的大量投入,相信不久的将来,Hadoop 技术会被拓展到更多的应用领域。
来源:多智时代