什么是 Hadoop？| IBM

主页

topics

Hadoop

什么是 Apache Hadoop？

深入了解 IBM 的 Hadoop 解决方案

订阅 AI 最新消息

包含云朵、饼图、图形的组合拼贴插图

什么是 Apache Hadoop？

Apache Hadoop 是一个开源软件框架，由当时就职于雅虎的 Douglas Cutting 开发，该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。

Hadoop 克服了 Nutch 的可扩展性限制，并基于商用计算机集群，为存储和处理大量结构化、半结构化和非结构化数据提供了一种经济高效的解决方案，而且没有格式要求。

包括 Hadoop 在内的数据湖架构可以为您的大数据分析计划提供灵活的数据管理解决方案。Hadoop 是一个开源项目，并遵循分布式计算模型，因此它可以为大数据软件和存储解决方案提供节省预算的定价。

Hadoop 还可以安装在云服务器上，以便更好地管理大数据所需的计算和存储资源。为了更加方便，Linux 操作系统代理、UNIX 操作系统代理和 Windows 操作系统代理是预先配置的，可以自动启动。Amazon Web Services (AWS) 和 Microsoft Azure 等一流云供应商提供了各种解决方案。Cloudera 支持本地和云（包括多个供应商的一个或多个公有云环境选项）中的 Hadoop 工作负载。使用 Hadoop 监控 API来添加、更新、删除和查看集群和集群上的服务，并在 Hadoop 上进行所有其他类型的监控。

AI 数据存储

了解将湖仓一体战略集成到数据架构的强大之处，其中包括用于扩展 AI 的增强功能以及成本优化机会。

相关内容

立即注册，获取 AI 治理白皮书

Hadoop 生态系统

由 Apache Software Foundation 构建的 Hadoop 框架包括：

Hadoop Common：支持其他 Hadoop 模块的常用实用程序和库。也称为 Hadoop Core。
Hadoop HDFS（Hadoop 分布式文件系统）：分布式文件系统，用于在商用硬件上存储应用程序数据。HDFS 旨在为 Hadoop 提供容错能力并提供高聚合数据带宽和高吞吐量数据访问。默认情况下，数据块在加载或写入时跨多个节点复制。复制程度可配置：默认复制为三个。HDFS 架构采用 NameNode 来管理文件系统命名空间和文件访问权限，采用多个 DataNode 来管理数据存储。通过支持高可用性，当活动节点发生故障时，可以使用从节点。
Hadoop YARN：开源 Apache Hadoop YARN 是一个用于作业调度和集群资源管理的框架，可与 IBM^® Spectrum Symphony on Linux^® 和 Linux on POWER^® 结合使用。YARN 代表“Yet Another Resource Negotiator”（又一个资源谈判专家）。它支持更多工作负载，例如交互式 SQL、高级建模和实时流。
Hadoop MapReduce：一种基于 YARN 的系统，可将数据存储在多个源上，并支持并行处理大量数据。MapReduce 提供了多种优化技术来加快作业速度。
Hadoop Ozone：专为大数据应用程序设计的可扩展、冗余和分布式对象库。

支持 Apache 项目

借助其他开源软件项目完善 Hadoop。

Ambari

基于 Web 的工具，用于配置、管理和监测 Hadoop 集群。

Avro

数据序列化系统。

了解 Avro

Cassandra

可扩展的 NoSQL 数据库，旨在消除单点故障。

Chukwa

用于监测大型分布式系统的数据收集系统；构建在 HDFS 和 MapReduce 之上。

Flume

用于收集、聚合大量流数据并将其移动至 HDFS 的服务。

HBase

可扩展的非关系型分布式数据库，支持大型表的结构化数据存储。

了解 Apache HBase

Hive

一种数据仓库基础架构，用于在类似 SQL 的界面中进行数据查询、表格元数据存储和分析。

了解 Apache Hive

Mahout

可扩展的机器学习和数据挖掘库。

Oozie

基于 Java 的工作负载调度程序，用于管理 Hadoop 作业。

Pig

用于并行计算的高级数据流语言和执行框架。

了解 Apache Pig

Scoop

在 Hadoop 和结构化数据库（例如关系数据库）之间高效传输数据的工具。

Submarine

统一的 AI 平台，用于在分布式集群中运行机器学习和深度学习工作负载。

Tez

基于 YARN 构建的通用数据流编程框架；在 Hadoop 生态系统中用来取代 MapReduce。

ZooKeeper

适用于分布式应用程序的高性能协调服务。

面向开发者的 Hadoop

Apache Hadoop 使用 Java 编写，但开发人员可根据大数据项目的要求，自行选择 Python、R 或 Scala 等语言进行编程。其中包含的 Hadoop Streaming 实用程序，允许开发人员使用任何脚本或可执行文件作为映射器或还原器来创建和执行 MapReduce 作业。

Spark 与 Hadoop

Apache Spark 也是一个开源的大数据处理框架，经常被拿来与 Hadoop 对比。事实上，Spark 最初是为提高处理性能而构建，扩展了 Hadoop MapReduce 可能支持的计算类型。Spark 使用内存处理，因此比 MapReduce 的读/写能力要快得多。

虽然 Hadoop 最适合批量处理大量数据，但 Spark 既支持批处理，也支持实时数据处理，是流式传输数据和图形计算的理想选择。Hadoop 和 Spark 都有机器学习库，但同样，由于内存处理，Spark 的机器学习速度要快得多。

了解有关 Apache Spark 的更多信息

Hadoop 用例

改善数据驱动型决策：集成实时数据（流式传输音频、视频、社交媒体情绪和点击流数据）以及数据仓库或关系数据库中未使用的其他半结构化和非结构化数据。更全面的数据助您做出更准确的决策。

改进数据访问和分析：为数据科学家、业务线 (LOB) 所有者和开发者提供实时自助访问。Hadoop 可以推动数据科学的发展，这是一个跨学科领域，它使用数据、算法、机器学习和 AI 进行高级分析，以揭示模式并构建预测。

数据卸载与整合：通过将当前未使用的“冷”数据移动至基于 Hadoop 的发行版进行存储，降低企业数据中心的成本。或者整合整个组织的数据，提高可访问性并降低成本。

相关解决方案

IBM 和 Cloudera

支持当今 AI 的预测性和规范性分析。将 Cloudera 的企业级 Hadoop 发行版与集成 IBM 和 Cloudera 产品与服务的单一生态系统相结合，改进数据发现、测试、临时查询和近乎实时的查询。利用 IBM 与 Cloudera 之间的合作来交付企业 Hadoop 解决方案。

深入了解 IBM 和 Cloudera

IBM Db2 Big SQL

使用企业级、符合 ANSI 标准的混合型 SQL-on-Hadoop 引擎来提供大规模并行处理 (MPP) 和高级数据查询功能。

深入了解 Db2 Big SQL

IBM Big Replicate

在数据流入时复制数据，文件无需等到完全写入或关闭后再传输。

深入了解 Big Replicate

开源数据库

利用 MongoDB 和 EDB 等领先供应商的开源数据库，提高大数据利用效率并降低成本。

深入了解开源数据库

资源

IBM + Cloudera

了解他们如何利用企业级、安全、已治理的开源数据湖推动高级分析。

如何连接更多数据

将数据湖融入数据管理策略中，以便集成更多非结构化数据，获得更深入的洞察分析。

面向 AI 的、强大的已治理数据湖

深入了解数据湖需要使用哪些存储和治理技术来提供 AI 就绪的数据。

数据湖治理

了解经过验证的治理解决方案如何为数据湖改善数据集成，提高质量和安全性。

大数据分析课程

根据自身技能水平，从数据科学、AI、大数据等免费课程中选择自己的学习路径。

开源社区

加入 IBM 开源数据管理社区，获得协作机会、资源等。

采取后续步骤

借助 IBM watsonx.data 随时随地扩展所有数据的 AI 工作量，IBM watsonx.data 是基于开放式湖仓一体架构构建的适用数据存储。

深入了解 watsonx.data

预约实时演示