データレイクハウスとは？

データレイクハウスは、データ・ウェアハウスとデータレイクの両方にまたがる根本的な課題を解決して、組織にとってより理想的なデータ管理ソリューションを提供することを目的としています。これらは、市場におけるデータ管理ソリューションの次の進化を表しています。

データレイクハウスは、データ・ウェアハウスとデータレイクの優れた側面を1つのデータ管理ソリューションに統合したデータ・プラットフォームです。データ・ウェアハウスはデータレイクよりもパフォーマンスが優れている傾向がありますが、コストが高く、拡張性が限られる場合があります。データレイクハウスは、クラウド・オブジェクト・ストレージを活用してより多くの種類のデータ（構造化データ、非構造化データ、半構造化データ）を保存することで、この問題の解決を図るものです。これらの利点を1つのデータ・アーキテクチャーにまとめることで、データ・チームは機械学習などより高度な分析を実施、拡張するために2つの異なるデータ・システムを使う必要がなくなるため、データ処理を高速化できます。

企業の人工知能を拡大するためにAIガバナンスがビジネス上欠かせない理由

特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。

データウェアハウス

データ・ウェアハウスは、複数のソースから未加工データを中央リポジトリに収集し、リレーショナル・データベース・インフラストラクチャーに整理します。このデータ管理システムは主にデータ分析と、企業レポートなどのビジネス・インテリジェンス・アプリケーションを支援するものです。システムはデータの抽出、変換、格納先へのロードを行うETLプロセスを使用します。ただし、特にデータ・ソース数とデータ量が時間とともに増加する場合、非効率性とコストのために限界があります。

データレイク

データレイクは通常Apache Hadoopなどのビッグデータ・プラットフォーム上に構築されます。従来のデータ・ウェアハウスのような事前定義されたスキーマがほぼないことから、コストの低さとストレージの柔軟性で知られています。またオーディオ、動画、テキストなどさまざまな種類のデータも格納します。データ作成者は非構造化データを生成することが多いので、この違いは重要です。なぜなら、組織全体でさらに斬新なインサイトとよりよい意思決定を促すデータサイエンスや人工知能（AI）プロジェクトも増やせるからです。ただし、データレイクにも独自の課題がないわけではありません。データレイクの規模と複雑さが原因で、大量の保存データに対処するために、データサイエンティストやデータエンジニアなどの技術者を増員しなければならない場合があります。加えてデータ・ガバナンスはこれらのシステムのより下流で実装されるため、データレイクにはデータサイロが増加しやすく、データスワンプになる可能性があります。これが発生すると、データレイクが使用できなくなるおそれがあります。

通常、データレイクとデータ・ウェアハウスは連携して使用されます。データレイクはあらゆる新規データに対応するシステムとして機能し、データ・ウェアハウスではこのシステムから取得した特定データに下流構造を適用します。しかし、信頼性の高いデータを提供するためにこれらのシステムを調整するには、時間とリソースが多く求められる場合があります。処理時間が長くなるとデータが古くなり、ETL層が増えるとデータ品質のリスクが高まります。

データレイクハウス

データレイクハウスはデータ・ウェアハウスとデータレイク内の欠陥を最適化して、より優れたデータ管理システムを形成します。組織に高速かつ低コストのエンタープライズ・データ用ストレージを提供すると同時に、データ分析と機械学習両方のワークロードをサポートするのに十分な柔軟性も備えています。

取り込み層

1層目では、さまざまなソースからデータを収集し、レイクハウスで保存、分析できる形式に変換します。取り込み層には、データベース管理システム、NoSQLデータベース、ソーシャル・メディアなど内外のソースに接続するためのプロトコルが使用されています。名前が示すとおり、この層はデータの取り込みを担当します。

ストレージ層

この層では構造化データ、非構造化データ、半構造化データがParquetやOptimized Row Columnar（ORC）などのオープンソース・ファイル形式で保存されます。レイクハウスの真の利点は、手頃なコストでシステムがあらゆるデータ・タイプを受け入れられることです。

メタデータ層

メタデータ層はデータレイクハウスの基盤です。これは、レイク・ストレージ内にある全オブジェクトのメタデータを取得できる統合カタログであり、システム内のデータに関する情報を整理して提供するのに役立ちます。この層により、ユーザーはACIDトランザクション、ファイル・キャッシュ、クエリを高速化するインデックスの作成といった管理機能も使用できます。ユーザーはこの層で定義済みのスキーマを実装し、データ・ガバナンスと監査機能を実現できます。

API層

データレイクハウスではAPIを使用してタスク処理を強化し、より高度な分析を実行します。具体的には、消費者や開発者はこの層によって抽象的なレベルでTensorflowなどさまざまな言語やライブラリを使用できます。 APIはデータ資産の消費に最適化されています。

データ消費層

データレイクハウス・アーキテクチャーの最後の層では、クライアントのアプリとツールをホストします。つまり、レイクに保存されているすべてのメタデータとデータにアクセスできるということです。組織のユーザーは、レイクハウスを利用してビジネス・インテリジェンスのダッシュボード、データの可視化、そのほか機械学習のジョブといった分析タスクを実行できます。

データレイクハウスの利点

データレイクハウスはデータ・ウェアハウスとデータレイクの機能で最もよい部分を統合すべく設計されているので、特定の重要メリットをユーザーにもたらします。これには以下が含まれます

データの冗長性を削減：単一のデータ・ストレージ・システムにより、どのようなビジネス・データ要求でも実行する合理的なプラットフォームが実現します。データレイクハウスはまた、データ・パイプラインを通じて複数のシステムに移動するデータ量を削減することで、データ・オブザーバビリティー（可観測性）を簡素化します。
費用対効果：データレイクハウスはクラウド・オブジェクト・ストレージのコストの低さを活用しているため、データ・ウェアハウスに比べて運用コストが比較的かかりません。さらに、データレイクハウスのハイブリッド・アーキテクチャーのおかげで複数のデータ・ストレージ・システムを維持する必要がなくなるので、運用コストが削減されます。
多様なワークロードに対応：データレイクハウスは、データ管理のライフサイクル全体でさまざまなユースケースに対応できます。またビジネス・インテリジェンスとデータ可視化のワークストリームや、より複雑なデータサイエンスのワークストリームにも対応できます。
ガバナンスの向上：データレイクハウス・アーキテクチャーは、データレイクについてまわる一般的なガバナンス問題を軽減します。例えばデータが取り込まれてアップロードされる時に、データが定義されたスキーマ要件を満たしていることを確認できるため、ダウンストリームのデータ品質に関する問題が軽減されます。
規模拡大：従来のデータ・ウェアハウスでは計算とストレージが一体化していたため、運用コストがかさんでいました。データレイクハウスはストレージと計算を分離するため、データ・チームが同じデータ・ストレージにアクセスしながらアプリケーションごとに異なるコンピューティング・ノードを使用できるようになります。これにより拡張性と柔軟性が向上します。
ストリーミングのサポート：データレイクハウスは現代のビジネスとテクノロジーに合わせて構築されたもので、多くのデータソースがデバイスから直接リアルタイム・ストリーミングを使用しています。レイクハウス・システムはこのリアルタイムの取り込みをサポートしており、将来はさらに一般的になるでしょう。

脚注

¹ レイクハウス：データウェアハウスと高度な分析を統合する次世代のオープン・プラットフォーム（リンクはibm.com外にあります）、スタンフォード、2021年

データレイクハウスとは？

データレイクハウスとは？

データ・ウェアハウス、データレイク、データレイクハウスの違い

データウェアハウス

データレイク

データレイクハウス

データレイクハウスの主な機能

データレイクハウスのアーキテクチャー

取り込み層

ストレージ層

メタデータ層

API層

データ消費層

データレイクハウスの利点

関連製品

データレイクハウスの参考情報

脚注