データレイクとは

共同執筆者

Staff Editor

IBM Think

データレイクとは

データレイクは、構造化データ、半構造化データ、非構造化データを含むあらゆる形式の大量の未加工データを処理できるように設計された、低コストのデータストレージ環境です。ほとんどのデータレイクは、AWS S3、Google Cloud Storage、IBM® Cloud Object Storageなどのクラウドベースのオブジェクト・ストレージを使用します。

データレイクは、2000年代後半から2010年代初頭にインターネットに接続されたアプリケーションやサービスによって作成された、大量のビッグデータ（その多くは構造化されていません）に、組織が対処するために生まれました。

従来のデータベースやデータウェアハウスとは異なり、データレイクでは、すべてのデータが1つの定義済みのスキーマに従う必要はありません。代わりに、データレイクは、さまざまな形式のさまざまなデータ・タイプを1つの集中リポジトリーに保管できます。データレイクは、クラウド・コンピューティングも活用して、データ・ストレージをよりスケーラブルかつ手頃な価格にします。

データレイクは、今日多くの組織のデータ・アーキテクチャーの中核コンポーネントです。IBM CDOの調査によると、主要な最高データ責任者（CDO）の75％がデータレイクに投資しています。

データレイクは柔軟なストレージを備えているため、組織がデータ・サイロを解消し、総合的なデータ・ファブリックを構築するのに役立ちます。これらは、データサイエンティストやデータ・エンジニアにとっても便利です。これらのプロフェッショナルは、データレイクを使用して、人工知能（AI）や機械学習（ML）のワークロードに必要な、大規模な非構造化データセットを管理することがよくあります。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データレイクの進化

長い間、組織はデータの管理にリレーショナル・データベース（1970年代に開発）とデータウェアハウス（1980年代に開発）に依存してきました。これらのソリューションは、現在でも多くの組織のITエコシステムの重要な部分となっていますが、主に構造化データセット向けに設計されました。

インターネットの成長、特にSNSやストリーミング・メディアの登場により、組織は自由形式のテキストや画像などの非構造化データを処理するようになりました。厳格なスキーマと比較的高価なストレージ・コストのため、ウェアハウスやリレーショナル・データベースでは、この大量のデータを処理するには不十分でした。

2011年、当時ソフトウェア会社Pentaho社の最高技術責任者だったJames Dixon氏が「データレイク」という用語を生み出しました。Dixon氏は、データレイクをデータウェアハウスの代替として捉えていました。ウェアハウスは対象となるビジネス・ユースケース向けに前処理されたデータを提供するのに対し、Dixon氏はデータレイクを、自然な形式で格納された大量のデータとしてイメージしました。ユーザーは、このレイクから必要なデータを取り出して、自由に使用できます。

初期のデータレイクの多くは、大規模なデータセットの分散処理用のオープンソース・ソフトウェア・フレームワークであるApache Hadoop上に構築されました。これらの初期のデータレイクはオンプレミスでホストされていましたが、データ量が急増し続けるとすぐに問題になりました。

クラウド・コンピューティングは、データレイクをよりスケーラブルなクラウド・オブジェクト・ストレージ・サービスに移行するというソリューションを提供しました。

データレイクは現在も進化を続けています。現在、多くのデータレイク・ソリューションは、安価でスケーラブルなストレージ以外にも、データ・セキュリティーやガバナンス・ツール、データ・カタログ、メタデータ管理などの機能を提供しています。

データレイクは、データレイクハウスのコア・コンポーネントでもあります。データレイクハウスは、レイクの低コスト・ストレージとウェアハウスの高性能分析機能を組み合わせた比較的新しいデータ管理ソリューションです。（詳細については、「データレイクとデータレイクハウスの違い」を参照してください）。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

データレイクのアーキテクチャー

最も初期のデータレイクはHadoop上に構築されましたが、現代のデータレイクの中核はクラウド・オブジェクト・ストレージ・サービスです。一般的なオプションには、Amazon Simple Storage Service（Amazon S3）、Microsoft Azure Blob Storage、Google Cloud Storage、IBM Cloud Object Storageなどがあります。

クラウド・オブジェクト・ストレージを使用すると、組織はさまざまな種類の未加工データをすべて同じデータ・ストアに保管できます。また、一般的にオンプレミスのストレージよりも拡張性とコスト効率に優れています。クラウド・ストレージ・プロバイダーを使用すると、ユーザーはオンデマンドで大規模なクラスターを立ち上げることができ、使用したストレージに対してのみ料金を支払う必要があります。

データレイク・アーキテクチャーでは、ストレージ・リソースとコンピューティング・リソースは互いに分離されています。データを処理するには、ユーザーは外部のデータ処理ツールに接続する必要があります。Python、R、Spark SQLなどのインターフェースをサポートするApache Sparkは、人気のある選択肢です。

ストレージとコンピューティングを分離すると、コストを抑えながら拡張性を高めることができます。組織は、コンピューティング・リソースを拡張することなく、ストレージを追加できます。

中央データレイク・ストレージは、取り込み層を介して、データベース、アプリ、モノのインターネット（IoT）デバイス、センサーなどのさまざまなデータ・ソースに接続されます。

ほとんどのデータレイクでは、データの取り込みに抽出、変換、ロード（ETL）プロセスではなく、抽出、ロード、変換（ELT）プロセスを使用します。レイクが取り込んだデータは元の状態のままで、必要になるまで変換されません。データにアクセスしたときにのみスキーマを適用するこのアプローチは、「schema-on-read」と呼ばれます。

ELTとETLの違いについて詳細はこちら

これらのコア・コンポーネントに加えて、組織はデータレイク・アーキテクチャーに他の層を組み込むことで、より安全で使いやすいものにすることができます。これらの層には次のものが含まれます。

データ処理のさまざまな段階に対応するための、複数の異なるストレージ層。例えば、データレイクには、未加工データ用の層が1つ、クレンジングされたデータ用の層が1つ、信頼できるアプリケーション・データ用の層が1つある場合があります。

統合されたデータ・ガバナンス・ソリューションやアイデンティティーおよびアクセス管理（IAM）コントロールなどのセキュリティーおよびガバナンス層により、データの品質が維持され、不正アクセスから保護されます。

ユーザーがメタデータフィルターやその他の方法を使用してデータを簡単に見つけられるようにするためのデータ・カタログ。

データレイク、データウェアハウス、データレイクハウス

データレイク、データウェアハウス、レイクハウスはすべてデータ管理ツールの一種ですが、重要な違いがあります。これらは、さまざまなユースケースをサポートするために、統合データ・アーキテクチャーで一緒に使用されることがよくあります。

データレイクとデータウェアハウスの違い

データレイクと同様に、データウェアハウスは、さまざまなデータソースからのデータを単一のストア（通常はリレーショナルデータベースシステム）に集約します。主な違いは、データウェアハウスは取り込んだデータをクリーンアップして準備し、データ分析に使用できる状態にすることです。

データウェアハウスは主に、高パフォーマンスのクエリ、ほぼリアルタイムの分析、ビジネス・インテリジェンス（BI）の取り組みをサポートするように設計されています。そのため、構造化データ向けに最適化されており、分析エンジン、ダッシュボード、データ視覚化ツールと緊密に統合されています。

ウェアハウスは、データレイクよりも高価で、柔軟性や拡張性が低いストレージになる傾向があります。組織は通常、特定の分析プロジェクトにウェアハウスを使用し、大規模で多目的なストレージにはデータレイクを使用します。

データレイクとデータレイクハウスの違い

データレイクハウスは、レイクの柔軟なデータ・ストレージとウェアハウスの高性能な分析機能を組み合わせたデータ管理ソリューションです。

データレイクと同様に、データレイクハウスは低コストであらゆる形式のデータを保管できます。データレイクハウスは、クラウド・データレイク・ストレージ・システム上にウェアハウス・スタイルの分析インフラストラクチャーも構築し、2つのソリューションの機能を統合します。

組織はレイクハウスを使用して、AI、ML、BI、データ分析など、さまざまなワークロードをサポートできます。レイクハウスは、データ・アーキテクチャーの最新化パスとしても機能します。組織は、コストのかかる総入れ替え作業を行わずに、既存のレイクとウェアハウスの横にレイクハウスを配置できます。

データレイク、ウェアハウス、レイクハウスの違いについて詳細はこちら

データレイクのユースケース

多目的ストレージ

多くの組織では、データレイクを、あらゆる形式のペタバイト単位のデータを簡単に格納できるため、受信データの汎用ストレージ・ソリューションとして使用しています。

組織は、データの種類ごとに異なるデータ・パイプラインを設定する代わりに、すべての受信データをデータレイク・ストレージに格納できます。ユーザーは、必要に応じて、レイクから直接データにアクセスするか、データをウェアハウスまたは他のデータ・プラットフォームに移動できます。

組織は、データレイクを使用して、まだ定義されていないユースケースの「念のため」のデータを保管することもできます。データレイクは安価で拡張可能なため、組織はまだ必要のないデータにリソースを費やすことを心配する必要がありません。

バックアップ、アーカイブ、活用されていないデータ

ストレージ容量が大きく、ストレージ・コストが低いため、データレイクはバックアップや災害復旧用によく選択されています。

データレイクは、コールド・データや非アクティブなデータを低価格で保管する方法でもあります。これは、古いデータをアーカイブし、コンプライアンス監査、規制調査、さらには将来の新しい分析に役立つ可能性のある履歴レコードを維持するのに役立ちます。

AIとMLのワークロード

データレイクは、予測モデルの構築や生成AIアプリケーションのトレーニングなど、AI、ML、ビッグデータ分析ワークロードで重要な役割を果たします。これらのプロジェクトには大量の非構造化データが必要ですが、データレイクはこれを安価かつ効率的に処理できます。

IBMがCEOを対象にして実施した調査によると、トップクラスの業績を上げているCEOの72％が、最先端の生成AIツールを導入することで組織に競争上の優位性をもたらすことに同意しています。AIとMLの重要性を考えると、データレイクが多くの組織にとって中核的なデータ・アーキテクチャー投資となっているのは当然のことです。

データ統合

データレイクは、複数のソースからのデータを結合して調和させ、さまざまな分析、運用、意思決定の目的で使用できるようにすることを目的としたデータ統合イニシアチブのサポートに役立ちます。

IBM Institute for Business Valueのベンチマーク・データによると、組織の64％が、データ共有に対する組織内の障壁を打破することが人材関連の最大の課題の1つであると述べています。調査によると、組織データの最大68％が分析されていません。必要なときに人々がデータを使用できない場合、組織はデータのメリットを十分に享受できません。

データレイクは、組織がアクセス可能な中央リポジトリーにあらゆる種類のデータを簡単に保管できるようにすることで、データ・アクセスとデータ共有を容易にします。

データレイクのメリット

データレイクは、データの保管、共有、使用を容易にすることで、組織がビジネス・データからより多くの価値を引き出すのに役立ちます。具体的には、データレイクは次の機能を提供できます。

柔軟性：データレイクは、構造化、半構造化、非構造化データセットを取り込むことができます。組織は、異なるタイプのデータごとに個別のストレージ・システムを維持する必要がないため、データ・アーキテクチャーを簡素化できます。

低コスト：データを保管するためにコストのかかるクリーニングおよび変換プロセスを経る必要がなく、クラウド・オブジェクト・ストレージは一般にオンプレミスの代替手段よりも安価です。組織は、データ管理イニシアチブ全体で予算とリソースをより効果的に最適化できます。

拡張性：データレイクはコンピューティング・リソースとストレージ・リソースを分離し、通常はクラウド・ストレージ・サービスを使用するため、他の多くのデータ・ストレージ・ソリューションよりもスケールアップやスケールダウンが簡単です。

データ・サイロの減少：IBM Institute for Business Valueのベンチマーク・データによると、組織の61％がデータ・サイロが最大の課題の1つであると述べています。データレイクは、さまざまな種類のデータをさまざまな場所に保管する必要性をなくすことで、データ・サイロの解消に役立ちます。中央のデータレイクまたはデータレイクのセットは、事業単位全体に分散されたさまざまなデータ・ストアよりもアクセスしやすい場合があります。

データレイクの課題

データ・ガバナンスと品質

データレイクは厳密なスキーマを強制せず、多くのソースからさまざまなデータ・タイプを受け入れるため、データ・ガバナンスとデータ品質に問題が生じる可能性があります。適切に管理しないと、データレイクは簡単に「データ沼」、つまり信頼性の低いデータの乱雑な泥沼になり、ユーザーが実用的な洞察を得ることが困難になります。

データ・スワンプに対抗するために、組織はメタデータ管理システムやデータカタログなどのタグ付けおよび分類ツールに投資して、ナビゲーションを容易にすることができます。

データ・ガバナンスおよびセキュリティー・ソリューション（アクセス制御、データ損失防止ツール、データ検知および対応ソリューションなど）は、データが許可なくアクセス、使用、または変更されることを防ぐのに役立ちます。

パフォーマンス

データレイクには、多くのウェアハウスやレイクハウスにあるような組み込みの処理および照会ツールがありません。さらに、データレイクに取り込まれるデータの量が増えると、特にデータが取得用に最適化されていない場合、照会と分析のパフォーマンスが低下する可能性があります。

最適化されたストレージ形式やクエリー・エンジンなどの適切なツールと構成を使用すると、データレイクのサイズに関係なく、高いパフォーマンスを確保できます。

IBM、Forrester Wave™、2025年第3四半期の統合iPaaSのリーダーに選出

Forrester社が、IBMを現在の製品部門で最高スコアをつけてリーダーにランク付けした理由については、レポートをお読みください。このリーダーシップが、より広範なエンタープライズ統合ストラテジーの中で安全でスケーラブルなファイル転送を提供し、IBM® webMethods MFTを強化する方法をご覧ください。