用于大数据处理高性能计算的 4 个实现步骤


大数据领域,并非每家公司都需要高性能计算 (HPC),但几乎所有使用大数据的企业都采用了 Hadoop 式分析计算。HPC 和 Hadoop 之间的区别很难区分,因为可以在高性能计算 (HPC) 设备上运行 Hadoop 分析作业,但反之亦然。 HPC 和 Hadoop 分析都使用并行数据处理,但在 Hadoop 和分析环境中,数据存储在硬件上,并分布在该硬件的多个节点上。在高性能计算 (HPC) 中,数据文件的大小要大得多,数据存储集中。高性能计算 (HPC) 由于其文件体积庞大,还需要更昂贵的网络通信(如 InfiniBand),因此需要高吞吐量和低延迟。

大数据_数据分析

企业首席信息官的目的很明确:如果企业可以避免使用 HPC 并只将 Hadoop 用于分析,可以执行此操作。这种方式成本更低,更易于员工操作,甚至可以在云端运行,其他公司 (如第三方供应商) 可以运行它。

不幸的是,对于需要高性能计算 (HPC) 进行处理的生命科学、气象、制药、采矿、医疗、政府、学术的企业和机构来说,全部采用 Hadoop 是不可能的。由于文件规模较大,处理需求极其严格,采用数据中心或与采用云计算都不是很好的方案。

 

简而言之,高性能计算 (HPC) 是一个在数据中心内部运行的大数据平台的完美示例。正因为如此,企业如何确保其投资巨大的硬件完成需要的工作成为了一个挑战。

大数据 Hadoop 和 HPC 平台提供商 PSCC Labs 首席战略官 Alex Lesser 表示:“这是必须使用 HPC 来处理其大数据的许多公司面临的挑战。大多数这些公司都有支持传统 IT 基础设施,他们很自然地采用了这种思路,自己构建 Hadoop 分析计算环境,因为这使用了他们已经熟悉的商用硬件,但是对于高性能计算 (HPC) 来说,其响应通常是让供应商来处理。”

 

考虑采用高性能计算 (HPC) 的公司需要采取以下四个步骤:

 

1. 确保企业高层对高性能计算 (HPC) 的支持

企业的高层管理人员和董事会成员不一定要求是高性能计算领域的专家,但绝不能没有他们的理解和支持。这些管理人员都应该对高性能计算 (HPC) 有足够的了解,以及可以为企业明确支持可能制定的大规模硬件、软件和培训投资。这意味着他们必须在两个方面受到教育:(1)HPC 是什么,为什么它与普通分析不同,需要采用特殊的硬件和软件。(2)为什么企业需要使用 HPC 而不是原有的分析来实现其业务目标。这两项教育工作都应由首席信息官 (CIO) 或首席开发官 (CDO) 负责。Lesser 表示:“采用 HPC 的最积极的公司是那些相信他们真正的科技公司,他们指的是亚马逊 AWS 云服务,最初只是亚马逊公司的零售业务,现在已成为一个庞大的利润中心。”

 

2. 考虑一个可以自定义的预配置硬件平台

PSSC Labs 等公司提供预打包和预配置的 HPC 硬件。“我们有一个基于 HPC 最佳实践的基本软件包,可以与客户一起根据客户的计算需求定制这个基础软件包。”Lesser 说,他指出几乎每个数据中心都必须进行一些定制。

 

3. 了解回报

与任何 IT 投资一样,HPC 必须符合成本效益,并且企业应该能够获得投资回报 (ROI),这一点在管理层和董事会的头脑中已经阐明。“一个很好的例子是飞机设计。”Lesser 说。 “高性能计算(HPC) 的投资规模很大,但是当公司发现它可以使用 HPC 进行设计模拟并获得 5 个 9 的准确性,并且不再需要租用物理风洞时,就会很快收回了 HPC 投资。”

 

4. 培训自己的 IT 员工

HPC 计算对企业的 IT 员工来说不是一个简单的过渡,但是如果企业要运行内部部署操作,则应该让团队定位以实现自给自足。最初,企业可能需要聘请外部咨询人员才能开始工作。但咨询任务的目标应始终是双重目标:(1) 让 HPC 应用程序继续运行,(2) 将知识传授给员工,以便他们能够接管操作。企业不应该满足于此。

 

HPC 团队的核心是需要一名数据科学家,他能够开发高性能计算所需的高度复杂的算法来回答企业的问题。它还需要一名精通 C + 或 Fortran 技能,并能够在并行处理环境中工作的强大系统的程序员,或者是网络通信专家。“最重要的是,如果企业每两周要运行一次或两次工作,就应该到云端来承载其 HPC。”Lesser 说,“但是如果企业正在使用 HPC 资源和运行作业,如制药公司或生物学公司可能每天多次运行,那么在云端运行就会浪费资金,应该考虑运行自己的内部操作。”

来源:中国统计网