云平台

对象存储的未来：从数据转储到数据湖

2019-12-19 | Written by: IBM中国博客团队

阅读时间： < 1 分钟

对象存储、Hadoop 和未来的数据湖

AI 阶梯的基础是信息架构。现代的数据驱动企业需要利用正确的工具来收集、整理和分析数据，然后才能将所得结果用于业务运营。

企业拥有很多类型的数据，应用这些数据的方式也是多种多样。我们必须寻找多种方法来管理所有形式的数据，而不论技术（例如，关系型、MapReduce）或用例（例如，分析、商业智能、业务流程自动化）如何。数据必须安全可靠地存储，同时最大程度降低成本并提高效用。

对象存储是收集、存储和管理将用于创造业务价值的数据资产的理想场所。

对象存储始于归档

对象存储最初被认为是一种简化：我们如何删除文件系统中的多余功能，从而令存储更具可扩展性、可靠性且成本更低。像擦除编码这样的技术通过支持在廉价的商用硬件上建立可靠的存储而大大降低了成本。该接口很简单 — 一个统一的无限名称空间，原子数据写入，这些都可以通过 HTTP 来访问。

此外，对象存储还擅长于数据存储。例如，IBM Cloud Object Storage 旨在实现高于 99.99999999% 的耐久性，具有强大的数据保护和安全功能，定价灵活，并与 IBM Aspera on Cloud 高速数据传输本地集成。

最初的用例显而易见：对象存储是可扩展性更高的文件系统，可用于存储非结构化数据（例如音乐、图像和视频），或者存储备份文件、数据库转储和日志文件。它的单一名称空间数据分层选项允许将其用于数据归档，并且它的 HTTP 接口使得它可以方便地将静态网站内容作为云原生应用的一部分提供。

但除此之外，它只是数据转储。

MapReduce 和 Hadoop 解决方案的兴起

在对象存储代替文件系统用例的同时，MapReduce 编程模型也出现在数据分析中。Apache Hadoop 提供了一个软件框架，用于处理传统的关系数据库管理系统 (RDBMS) 解决方案无法有效管理的大数据工作负载。数据研究员和分析人员不得不放弃声明式数据管理和 SQL 查询，但获得了处理指数级增长的数据集的能力，并且能够自由探索非结构化和半结构化数据。

一开始，有些人认为 Hadoop 是一种倒退。它实现了一定程度的规模和成本节约，但放弃了使 RDBMS 系统如此强大和易于使用的大部分功能。虽然并不需要架构增加灵活性，但查询延迟和整体性能有所下降。然而，Hadoop 生态系统一直在不断扩展并满足用户需求。Spark 极大地提高了性能，Hive 则提供了 SQL 查询。

Hadoop 并不是万能的。事务处理仍然更适合使用 RDBMS。企业必须使用适当的技术来满足各种 OLAP 和 OTLP 需求。

HDFS 成为许多企业事实上的数据湖

与对象存储一样，Hadoop 也被设计为一种基于廉价商用硬件的向外扩展架构。Hadoop 文件系统 (HDFS) 的前提是应将计算移至数据；因此，它旨在将数据放置在计算节点本身的本地连接存储上。采用本地运行的任务可以直接读取的某种形式存储数据，无需网络跃点。

虽然这对于许多类型的工作负载都是有益的，但并不是某些人所设想的 ETL 的终结。通过将可读的数据副本直接放置在计算节点上，HDFS 无法利用擦除编码来节省成本。当需要数据可靠性时，复制就不那么划算了。此外，它不能从计算中独立扩展。随着工作负载的多样化，这种不灵活性引发了管理和成本问题。对于许多工作来说，网络实际上并不是瓶颈。计算瓶颈通常是 CPU 或内存问题，而存储瓶颈通常与硬盘驱动器主轴系统相关，可能会是磁盘吞吐量或者搜索限制问题。

当您将计算与存储分离时，两方面都将受益。计算节点更便宜，因为它们不需要大量的存储，可以快速扩展或缩小而无需大量的数据迁移成本，必要时，甚至还可以单独运行作业。

对于存储，您希望将负载分散到尽可能多的主轴系统上，因此在大型数据池中使用较小的活动数据集是有好处的。当延迟确实是一个问题时，可以将专用的存储预算保留给较小的闪存集群。

Hadoop 的规模和成本节省吸引了许多企业将其用在任何可能的地方，并且许多企业最终都使用 HDFS 作为主要数据存储。这导致了成本、可管理性和灵活性问题。

未来的数据湖支持所有计算工作负载

对象存储一直是一种有用的数据库备份方法，它还可用于将数据从 HDFS 卸载到成本较低的层。事实上，这是企业通常会做的第一件事。

但是，数据湖不只是数据转储。

数据湖是收集组织数据以备未来使用的地方。是的，它需要以高度可扩展、安全且经济有效的方式来存储和保护数据 – 对象存储始终可以做到这一点。但是，当数据存储在数据湖中时，人们通常不知道如何使用数据以及如何将其转化为价值。因此，至关重要的是，数据湖必须与各种数据处理、分析和 AI 工具良好集成。

典型的工具不仅包括 Hadoop、Spark 和 Hive 等大数据工具，还包括深度学习框架（例如 TensorFlow）和分析工具（例如 Pandas）。此外，对于数据湖来说，务必要支持使用一些工具对数据进行编目、传送和转换，进而能够探索数据资产并进行再利用。

对象存储能够以大数据和分析工具固有的格式存储数据。您的 Hadoop 和 Spark 作业可以使用 IBM Analytics Engine，通过 S3a 或 Stocator 连接器直接访问对象存储。IBM 针对 IBM Cloud Object Storage 使用这些技术来满足运营和分析需求。

与 Hadoop 一样，您也可以利用对象存储直接执行 SQL 查询。IBM Cloud SQL Query 服务在内部使用 Spark，针对直接存储在 IBM Cloud Object Storage 存储区中的数据执行临时查询和 OLAP 查询。

TensorFlow 还可以用于直接使用对象存储中的数据来训练和部署机器学习模型。

这就是对象存储的未来

当企业寻求实现信息架构现代化时，使用对象存储来构建数据湖可以节省资金。

对于现有的 HDFS，这可以逐步完成，但是您需要确保对数据进行精心整理，以便充分利用现在和将来可用的丰富功能。

对象存储

条形码联合发明人去世，他几乎改变了世界上的所有行业

近期文章

More 云平台 stories

波士顿动力公司与 IBM 联手，运用 IBM 解決方案将移动边缘分析引入工业运营

云计算

阅读时间： < 1 分钟在制造和仓库等领域的运营中，为了帮助企业利用数据和分析，以便实时发现问题、改进决策、更高效地执行任务，对 AI 驱动的机器人的需求不断增长。但要获得真正的收益，必须在运营中让 AI 尽可能靠近数据来源。 ...read more

华鑫期货借助IBM车库创新方法论，以量化交易为背景布局AI技术应用

云计算, 大数据与AI

阅读时间： < 1 分钟华鑫期货有限公司（以下简称:华鑫期货）是引领中国期货行业经营快速发展的期货公司之一，依托其自主研发的期货交易平台，拥有强大的专业化投资研发服务能力。在中国期货市场蓬勃发展的今天，无论在商品、金融期货经纪业务还是其他信息咨询服务上，行业整体盈利能力都在不断提升。在这样的背景下，华鑫期货积极探索AI+大数据应用，寻找新的发力点。在IBM车库创新团队的支持下，华鑫期货借助IBM Cloud Pak for Data，将AI注入量化交易业务，革新了传统的量化方法。 ...read more

IBM 携手亮亮视野 “AI + AR”，带您体验 “无边界的虚拟企业”

云计算, 智能制造, 运营管理

阅读时间： < 1 分钟近年來，随着设备传感物联技术成熟和AI应用的普及，新一代的技术正在重塑传统的资产密集行业。北京亮亮视野科技有限公司成立于2014年，深度整合新一代AI、IOT、大数据、5G的技术，为企业提供高效AR交互体验。“亮亮视野希望通过增强现实与人工智能技术，以第一视角交互让人与人、人与机器、人与数据的沟通变得更自然高效。” 北京亮亮视野科技有限公司企业事业部总经理娄身强说。 ...read more

云平台