大数据时代所分析的数据的最主要特征是 “多源异构”,其分析过程是逐层抽象、降维、概括和解读的过程。从数据采集的源头进行划分,可将大数据时代分析处理的数据对象划分为以下几个类别:
对于这些数量庞大的,来自不同源头的非结构化数据。其分析模式的特点如下:对于互联网产生的数据,其最主要的应用是建立搜索引擎,通过搜索引擎进行数据检索、处理。
随着技术的不断发展,个性化推荐引擎以及大数据分析引擎的问世能够更加高效的在海量数据中分析得出更有价值的信息; 对于日志数据,可对用户点击浏览的行为日志和系统运行行为日志进行分析。
使得系统能够根据实际情况产生出更加智能的结果。日志数据与网页数据的分析处理模式较为类似,都是通过细致分析从而探寻出数据中蕴藏的价值。
这种数据分析处理模式称为 “离线批处理模式”; 对于通信领域的数据分析,分析决策人员会对经过细致分析的数据进行统计归纳和查询,并且在最短的时间内获得最有价值的信息。
以此来确保系统的交互性并最大限度地提升用户体验。这种数据分析处理模式称为 “查询式分析” 模式; 对于互联网以及国民经济中重要行业的数据进行实时监控,这种模式称为“实时数据分析处理“模式。
以上为依据时间特征划分的数据分析模式。而实现这些分析模式的主要方法有:分类、回归分析、聚类、关联规则、神经网络、WEB 数据挖掘等。
要想从急剧增长的数据资源中挖掘分析出有价值的信息,需要先进的分析技术作支撑。从宏观上看,大数据分析技术发展所面临的问题均包含三个主要特征:
为了有效应对大数据时代数据分析问题的三个主要特征以及满足大数据分析的基本需求,当前以及未来一段时期内将主要通过分布式数据库或者分布式计算集群来对存储于其内的海量数据进行由浅入深的分析和分类汇总。
例如,为满足实时分析的需求通常会采用 Qracle 的 Exadata 和 EMC 的 GreenPlum。而目前分析处理大数据的应用最广泛的核心技术为 Hadoop。
Hadoop 是由 Apache 基金会所开发的一个基于 Java 的分布式数据处理和分析的软件基础架构。
在这种架构下,用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 能够将数量庞大的数据分解成规模较小、易访问的数据集并发送到多台服务器上进行分析,以此获得高效的分析速率。该架构主要由文件系统以及数据处理两部分功能模块组成。
来源:大数据观察