ETLとは

オフィスで一人座って仕事をする女性が、ノートPCを使ってメールを確認し、ネットで計画を立てている

ETLとは

ETLとは、Extract（抽出）、変換（Transform）、Load（ロード）の略称で、複数のソースからデータを抽出し、変換、加工して整理した上で、データウェアハウスやデータレイク、またはその他のターゲット・システムに保存するためのデータ統合プロセスです。

ETLデータ・パイプラインは、データ分析と機械学習のワークストリームに対する基盤を提供します。ETLは、一連のビジネス・ルールを通じてデータをクレンジングおよび整理し、月次レポートなどの特定のビジネス・インテリジェンス・ニーズに対応します。また、バック・エンド・プロセスとエンド・ユーザー・エクスペリエンスを向上させる、より高度な分析にも対応できます。ETLパイプラインは、組織で次のような目的でよく使用されます。

レガシー・システムからのデータ抽出
データ品質を向上させ一貫性を確立するためのデータ・クレンジング
ターゲット・データベースへのデータ・ロード

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

ETLの歴史

企業はそろばんの時代からデータを生成してきましたが、現代の分析手法はデジタル・コンピュータとデータ・ストレージの登場によって初めて可能になりました。

1970年代に大きな前進があり、より大規模な集中型データベースへの移行が行われました。その後、ETLは計算と分析のためのデータ統合とロードのプロセスとして導入され、最終的にはデータ・ウェアハウジング・プロジェクトにおけるデータを処理の主要な方法になりました。

1980年代後半には、データ・ウェアハウスと、トランザクション・データベースからリレーショナル・データ形式で情報を格納するリレーショナル・データベースへの移行が普及しました。従来のトランザクション・データベースは、情報がトランザクションごとに保存され、各トランザクションに重複した顧客情報が保存されていたため、長期にわたって統一された方法で顧客データにアクセスする簡単な方法がありませんでした。リレーショナル・データベースの登場により、アナリティクスがBusiness Intelligence（BI）の基礎となり、意思決定における重要なツールとなりました。

より洗練されたETLソフトウェアが登場するまで、初期の取り組みは主にITチームによる手作業でした。さまざまなシステムやコネクターからデータを抽出し、そのデータを共通の形式に変換し、相互接続されたテーブルにロードするという作業でした。それでも、高度なアルゴリズムとニューラルネットワークの登場により、分析洞察のためのより深い機会が生まれたため、初期のETLにおける努力は価値があるものでした。

1990年代には、演算処理速度とストレージ容量が急速に成長し続け、ソーシャルメディアやモノのインターネット（IoT）などの新しいソースから大量のデータが抽出されるようになり、ビッグデータの時代が到来しました。依然として制限要因だったのは、多くの場合、データはオンプレミスのデータ・ウェアハウスに保存されているということでした。

コンピューティングとETLの両方における次の大きなステップは、1990年代後半に普及したクラウド・コンピューティングでした。Amazon Web Services（AWS）、Microsoft Azure、Snowflakeなどのデータウェアハウスを使用すると、世界中からデータにアクセスして迅速に拡張できるため、ETLソリューションで非常に詳細な洞察と新たな競争上の優位性を実現できます。

最新の進化は、ストリーミング・データを使用して膨大な量のデータから最新の洞察を提供するETLソリューションです。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

ETLとELTの比較

ETLとELT（抽出、ロード、変換）の最も明らかな違いは、操作の順序の違いです。ELTはソース・ロケーションからデータをコピーまたはエクスポートしますが、変換のためにステージング領域にロードする代わりに、生データをターゲット・データ・ストアに直接ロードして必要に応じて変換します。

どちらのプロセスもデータベース、データ・ウェアハウス、データレイクなどのさまざまなデータ・リポジトリを利用しますが、各プロセスには長所と短所があります。ELTは、ソースから直接読み込みを行えるため、大容量の非構造化データ・セットの取り込みに適しています。ELTはデータの抽出と保存について事前の計画をそれほど必要としないため、ビッグデータ管理に理想的です。

ETLプロセスでは、開始時により多くの定義が必要です。異なるソース・システム間で統合するためには、抽出する特定のデータ・ポイントと潜在的な「キー」を特定する必要があります。入力データのソースは、多くの場合、メタデータを使用して追跡されます。その作業が完了した後でも、データ変換のためのビジネス・ルールを構築する必要があります。この作業は通常、特定のタイプのデータ分析のデータ要件に依存することがあり、データに必要な要約のレベルを決定します。

ELTパイプラインはクラウド・データベースの導入によりますます普及していますが、ELTテクノロジーはまだ開発段階にあり、ベスト・プラクティスはまだ模索されている状況です。

ETLの仕組み

ETLの仕組みを理解する最も簡単な方法は、プロセスの各ステップで何が起こるかを理解することです。

抽出

データ抽出時には、未加工データがソースの場所からステージング・エリアへコピーまたはエクスポートされます。データ管理チームは、構造化データまたは非構造化データを含む、さまざまなソースからデータを抽出できます。これらのデータ・タイプには以下が含まれますが、これらに限定されません。

SQLまたはNoSQLサーバー
CRMおよびERPシステム
JSONとXML
フラットファイル・データベース
Eメール
Webページ

変換

ステージング・エリアでは、未加工データがデータ処理を受けます。ここでは、データが変換され、意図した分析用途に合わせて統合されます。変換プロセスのこのフェーズには、以下が含まれます。

データのフィルタリング、クレンジング、重複排除、検証、認証
未加工データに基づく計算、翻訳、または要約の実行（一貫性を保つために行と列のヘッダーの変更、通貨やその他の計量単位を変換、テキスト文字列の編集など）
データの品質とコンプライアンスを確認するための監査の実施、およびメトリクスの計算
業界や政府の規制によって管理されるデータを削除、暗号化、または保護
ターゲット・データ・ウェアハウスのスキーマに合わせたテーブルまたは統合テーブルへのデータフォーマット化

ロード

最終ステップでは、変換されたデータがステージング・エリアからターゲット・データ・ウェアハウスへ移動されます。通常、これには全データの初期ロードが含まれ、その後、増分データの変更の定期的なロードが行われ、頻度は少ないですが、ウェアハウス内のデータを消去して置き換える完全なリフレッシュが行われます。ETLを使用するほとんどの組織では、プロセスが自動化され、明確に定義され、連続的かつバッチ処理されます。通常、ETLのロード・プロセスは、ソースシステムとデータウェアハウスのトラフィックが最も少ない時間帯に行われます。

ETLおよびその他のデータ統合方法

ETLとELTはデータ統合の方法のひとつに過ぎず、データ統合ワークフローを促進するために他にも多くのアプローチがあります。その中のいくつかを挙げます。

変更データ・キャプチャー（CDC）は、変更されたソース・データのみを識別してキャプチャーし、そのデータをターゲット・システムに移動します。CDCは、ETLの「抽出」ステップで必要なリソースを削減するために使用されることもありますが、データレイクやその他のリポジトリに変換されたデータをリアルタイムで移動するために単独で使用されることもあります。
データ・レプリケーションは、データ・ソースの変更をリアルタイムまたはバッチで中央データベースにコピーします。データ・レプリケーションは、データ統合方法としてよく挙げられますが、実際には、災害復旧のためのバックアップを作成するために最もよく使用されます。
データ仮想化は、ソース・データをターゲット・システムに物理的にコピー、変換、またはロードすることなく、統合され、全面的に使用可能なデータ・ビューをソフトウェアの抽象化レイヤーを通じて作成します。データ仮想化機能を使用すると、組織は同じソース・データからデータ・ストレージ用の仮想データ・ウェアハウス、データレイク、データ・マートを作成でき、それぞれ別のプラットフォームを構築および管理する費用や複雑さを避けることができます。データ仮想化はETLと並行して使用されることもありますが、ETLや他の物理的なデータ統合方法の代替手段として捉えられるケースが増えています。
ストリーム・データ統合（SDI）は、リアルタイムでデータ・ストリームを連続的に取り込み、変換し、分析のためにターゲット・システムにロードします。「連続的に」というキーワードが重要で、SDIは特定の時点でソースから抽出されたデータのスナップ・ショットを統合するのではなく、データが利用可能になると同時に継続的にデータを統合します。SDIにより、分析、機械学習、リアルタイム・アプリケーションを強化するためのデータ・ストアが実現され、顧客体験の向上、不正アクセス検知などに役立ちます。

ETLの利点と課題

ETLソリューションは、データを別のリポジトリにロードする前にデータ・クレンジングを行うことで品質を向上させます。ETLは時間がかかるバッチ処理であり、更新頻度が低い小規模なターゲット・データ・リポジトリの作成に向いています。一方、ELT（抽出、ロード、変換）、変更データ・キャプチャー（CDC）、データ仮想化などの他のデータ統合方法は、増加する大量のデータやリアルタイム・データ・ストリームの統合に使用されます。

ETLツール

過去には、組織が独自にETLコードを作成していましたが、現在では多くのオープン・ソースや商用のETLツール、クラウド・ベースのサービスがあります。これらの製品の一般的な機能は次のとおりです。

包括的な自動化と使いやすさ：主要なETLツールは、データ・ソースからターゲット・データ・ウェアハウスまでのデータ・フロー全体を自動化します。これにより、データエンジニアはデータの移動やフォーマットという面倒な作業から解放され、より迅速な結果とより効率的な運用が可能になります。
視覚的なドラッグ・アンド・ドロップ・インターフェース：この機能は、ルールとデータ・フローの指定に使用できます。
複雑なデータ管理のサポート：これには、複雑な計算、データ統合、および文字列操作の支援が含まれます。
セキュリティーとコンプライアンス：最良のETLツールは、移動中および保存中のデータを暗号化し、HIPAAやGDPRのような業界や政府の規制に準拠していることが保証されています。

さらに、多くのETLツールはELT機能を組み込み、人工知能（AI）アプリケーション向けのリアルタイムデータとストリーミングデータの統合をサポートするように進化しました。

統合の未来 - EAIを活用したAPI

アプリケーション・プログラミング・インターフェース（API）は、エンタープライズ・アプリケーション統合（EAI）を使用してETLの代わりとして利用でき、ワークフロー統合を含むより柔軟でスケーラブルなソリューションを実現します。ETLは依然として主要なデータ統合リソースでありながら、EAIはWebベースの設定でAPIと共に使用されることが増えています。

データリーダーのためのデータ統合

複雑化するハイブリッドクラウド環境と、データの仮想化、複製、カタログ作成、自動化など、無秩序な拡大を抑制するのに役立つマルチクラウド・データ統合の構成要素についてご紹介します。

参考情報

2024年度Gartner®データ統合ツールのMagic Quadrant™

IBMは、2024年もGartner®データ統合ツールのMagic Quadrant™でリーダーに選ばれ、19年連続で選出されました。

AI対応データでAI導入を促進

AIを活用したデータ・インテリジェンスとデータ統合が、構造化データおよび非構造化データへの備えを推進し、AIの成果を加速するために重要である理由をご紹介します。

AI向けハイブリッド・オープン・データレイクハウス

ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。

データの差別化要因

データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。

データ統合をモダナイズする 5 つの理由

IBM Cloud Pak for Dataでデータ統合をモダナイズする必要がある5つの理由をご覧ください。

Gartner®社による予測（2024年）：AIがアナリティクス・ユーザーに与える影響

ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。