ETL(抽出、変換、ロードの略)は、複数のソースからのデータを単一の一貫したデータ・セットに結合して、データ・ウェアハウス、データレイク、またはその他のターゲット・システムにロードするために使用される長年のデータ統合プロセスです。
1970年代にデータベースの人気が高まるにつれ、計算と分析のためにデータを統合およびロードするプロセスとしてETLが導入され、最終的にはデータ・ウェアハウジング・プロジェクトのデータを処理する主要な方法になりました。
ETLは、データ分析と機械学習のワークストリームの基盤を提供します。ETLは、一連のビジネス・ルールを通じて、月次レポートなどの特定のビジネス・インテリジェンスのニーズに対応する方法でデータをクレンジングおよび整理しますが、バックエンド・プロセスやエンドユーザー・エクスペリエンスを向上させる、より高度な分析にも取り組むことができます。ETLは組織で次の目的でよく使用されます。
データ分析に役立つオープンソースのSQLエンジンであるPrestoの導入方法については、O'Reilly社が提供する資料をご覧ください。
AIガバナンスに関するホワイトペーパーへの登録
ETLとELTの最も明確な違いは、操作の順序の違いです。ELTはソース・ロケーションからデータをコピーまたはエクスポートしますが、変換のためにステージング領域にロードする代わりに、生データをターゲット・データ・ストアに直接ロードして必要に応じて変換します。
どちらのプロセスもデータベース、データ・ウェアハウス、データレイクなどのさまざまなデータ・リポジトリを利用しますが、各プロセスには長所と短所があります。ELTは、ソースから直接読み込みを行えるため、大容量の非構造化データ・セットに特に適しています。ELTはデータの抽出と保存について事前の計画をそれほど必要としないため、ビッグデータ管理に理想的です。
一方、ETLプロセスでは開始時により多くの定義が必要です。異なるソース・システム間で統合するためには、抽出する特定のデータ・ポイントと潜在的な「キー」を特定する必要があります。その作業が完了した後でも、データ変換のためのビジネス・ルールを構築する必要があります。この作業は通常、特定のタイプのデータ分析のデータ要件に依存することがあり、データに必要な要約のレベルを決定します。
クラウド・データベースの採用に伴い、ELTはますます人気が高まっていますが、新しいプロセスであるがゆえのデメリットもあり、ベスト・プラクティスがまだ確立されていないという点があります。
ETLの仕組みを理解する最も簡単な方法は、プロセスの各ステップで何が起こるかを理解することです。
データ抽出時には、未加工データがソースの場所からステージング・エリアへコピーまたはエクスポートされます。データ管理チームは、構造化されたものも非構造化されたものも含むさまざまなデータ・ソースからデータを抽出することができます。これらの情報源には以下が含まれますが、これに限定されません。
ステージング・エリアでは、未加工データがデータ処理を受けます。ここでは、データが変換され、意図した分析用途に合わせて統合されます。このフェーズには次のようなタスクが含まれます。
最終ステップでは、変換されたデータがステージング・エリアからターゲット・データ・ウェアハウスへ移動されます。通常、これには全データの初期ロードが含まれ、その後、増分データの変更の定期的なロードが行われ、頻度は少ないですが、ウェアハウス内のデータを消去して置き換える完全なリフレッシュが行われます。ETLを使用するほとんどの組織では、プロセスが自動化され、明確に定義され、連続的かつバッチ処理されます。ETLは通常、ソース・システムとデータ・ウェアハウスのトラフィックが最も少ない時間外に実行されます。
ETLとELTはデータ統合の方法のひとつに過ぎず、データ統合ワークフローを促進するために他にも多くのアプローチがあります。その例としては、以下があります。
ETLソリューションは、データを別のリポジトリにロードする前にデータ・クレンジングを行うことで品質を向上させます。ETLは時間がかかるバッチ処理であり、更新頻度が低い小規模なターゲット・データ・リポジトリの作成に向いています。一方、ELT(抽出、ロード、変換)、変更データ・キャプチャー(CDC)、データ仮想化などの他のデータ統合方法は、増加する大量のデータやリアルタイム・データ・ストリームの統合に使用されます。
過去には、組織が独自にETLコードを作成していましたが、現在では多くのオープン・ソースや商用のETLツール、クラウド・サービスがあります。これらの製品は、次のような一般的な機能を備えています。
さらに、多くのETLツールはELT機能を組み込み、人工知能(AI)アプリケーション向けのリアルタイムデータとストリーミングデータの統合をサポートするように進化しました。
アプリケーション・プログラミング・インターフェース(API)は、エンタープライズ・アプリケーション統合(EAI)を使用してETLの代わりとして利用でき、ワークフロー統合を含むより柔軟でスケーラブルなソリューションを実現します。ETLは依然として主要なデータ統合リソースでありながら、EAIはWebベースの設定でAPIと共に使用されることが増えています。
IBM Cloud Pak for Dataは、オープンで拡張可能なデータ・プラットフォームであり、あらゆるクラウドでAIや分析のために全てのデータを利用可能にするデータ・ファブリックを提供します。
AIは新しい方法でデータの価値を引き出しています。DataOpsソリューションを用いてデータを整理し、AIとマルチクラウドの世界に対応できるようにしましょう。
データ統合により、構造化データと非構造化データを変換し、スケーラブルなビッグデータ・プラットフォーム上の任意のシステムに配信できます。