ETLデータ・パイプラインは、データ分析と機械学習のワークストリームに対する基盤を提供します。ETLは、一連のビジネス・ルールを通じてデータをクレンジングおよび整理し、月次レポートなどの特定のビジネス・インテリジェンス・ニーズに対応します。また、バック・エンド・プロセスとエンド・ユーザー・エクスペリエンスを向上させる、より高度な分析にも対応できます。ETLパイプラインは、組織で次のような目的でよく使用されます。
レガシー・システムからのデータ抽出
データ品質を向上させ一貫性を確立するためのデータ・クレンジング
ターゲット・データベースへのデータ・ロード
企業はそろばんの時代からデータを生成してきましたが、現代の分析手法はデジタル・コンピュータとデータ・ストレージの登場によって初めて可能になりました。
1970年代に大きな前進があり、より大規模な集中型データベースへの移行が行われました。その後、ETLは計算と分析のためのデータ統合とロードのプロセスとして導入され、最終的にはデータ・ウェアハウジング・プロジェクトにおけるデータを処理の主要な方法になりました。
1980年代後半には、データ・ウェアハウスと、トランザクション・データベースからリレーショナル・データ形式で情報を格納するリレーショナル・データベースへの移行が普及しました。従来のトランザクション・データベースは、情報がトランザクションごとに保存され、各トランザクションに重複した顧客情報が保存されていたため、長期にわたって統一された方法で顧客データにアクセスする簡単な方法がありませんでした。リレーショナル・データベースの登場により、アナリティクスがBusiness Intelligence(BI)の基礎となり、意思決定における重要なツールとなりました。
より洗練されたETLソフトウェアが登場するまで、初期の取り組みは主にITチームによる手作業でした。さまざまなシステムやコネクターからデータを抽出し、そのデータを共通の形式に変換し、相互接続されたテーブルにロードするという作業でした。それでも、高度なアルゴリズムとニューラル ネットワークの登場により、分析洞察のためのより深い機会が生まれたため、初期のETLにおける努力は価値があるものでした。
1990年代には、演算処理速度とストレージ容量が急速に成長し続け、ソーシャルメディアやモノのインターネット(IoT)などの新しいソースから大量のデータが抽出されるようになり、ビッグデータの時代が到来しました。依然として制限要因だったのは、多くの場合、データはオンプレミスのデータ・ウェアハウスに保存されているということでした。
コンピューティングとETLの両方における次の大きなステップは、1990年代後半に普及したクラウド・コンピューティングでした。Amazon Web Services(AWS)、Microsoft Azure、Snowflakeなどのデータウェアハウスを使用すると、世界中からデータにアクセスして迅速に拡張できるため、ETLソリューションで非常に詳細な洞察と新たな競争上の優位性を実現できます。
最新の進化は、ストリーミング・データを使用して膨大な量のデータから最新の洞察を提供するETLソリューションです。
ETLとELT(抽出、ロード、変換)の最も明らかな違いは、操作の順序の違いです。ELTはソース・ロケーションからデータをコピーまたはエクスポートしますが、変換のためにステージング領域にロードする代わりに、生データをターゲット・データ・ストアに直接ロードして必要に応じて変換します。
どちらのプロセスもデータベース、データ・ウェアハウス、データレイクなどのさまざまなデータ・リポジトリを利用しますが、各プロセスには長所と短所があります。ELTは、ソースから直接読み込みを行えるため、大容量の非構造化データ・セットの取り込みに適しています。ELTはデータの抽出と保存について事前の計画をそれほど必要としないため、ビッグデータ管理に理想的です。
ETLプロセスでは、開始時により多くの定義が必要です。異なるソース・システム間で統合するためには、抽出する特定のデータ・ポイントと潜在的な「キー」を特定する必要があります。入力データのソースは、多くの場合、メタデータを使用して追跡されます。その作業が完了した後でも、データ変換のためのビジネス・ルールを構築する必要があります。この作業は通常、特定のタイプのデータ分析のデータ要件に依存することがあり、データに必要な要約のレベルを決定します。
ELTパイプラインはクラウド・データベースの導入によりますます普及していますが、ELTテクノロジーはまだ開発段階にあり、ベスト・プラクティスはまだ模索されている状況です。
ETLの仕組みを理解する最も簡単な方法は、プロセスの各ステップで何が起こるかを理解することです。
データ抽出時には、未加工データがソースの場所からステージング・エリアへコピーまたはエクスポートされます。データ管理チームは、構造化データまたは非構造化データを含む、さまざまなソースからデータを抽出できます。これらのデータ・タイプには以下が含まれますが、これらに限定されません。
ステージング・エリアでは、未加工データがデータ処理を受けます。ここでは、データが変換され、意図した分析用途に合わせて統合されます。変換プロセスのこのフェーズには、以下が含まれます。
最終ステップでは、変換されたデータがステージング・エリアからターゲット・データ・ウェアハウスへ移動されます。通常、これには全データの初期ロードが含まれ、その後、増分データの変更の定期的なロードが行われ、頻度は少ないですが、ウェアハウス内のデータを消去して置き換える完全なリフレッシュが行われます。ETLを使用するほとんどの組織では、プロセスが自動化され、明確に定義され、連続的かつバッチ処理されます。通常、ETLのロード・プロセスは、ソースシステムとデータウェアハウスのトラフィックが最も少ない時間帯に行われます。
ETLとELTはデータ統合の方法のひとつに過ぎず、データ統合ワークフローを促進するために他にも多くのアプローチがあります。その中のいくつかを挙げます。
ETLソリューションは、データを別のリポジトリにロードする前にデータ・クレンジングを行うことで品質を向上させます。ETLは時間がかかるバッチ処理であり、更新頻度が低い小規模なターゲット・データ・リポジトリの作成に向いています。一方、ELT(抽出、ロード、変換)、変更データ・キャプチャー(CDC)、データ仮想化などの他のデータ統合方法は、増加する大量のデータやリアルタイム・データ・ストリームの統合に使用されます。
過去には、組織が独自にETLコードを作成していましたが、現在では多くのオープン・ソースや商用のETLツール、クラウド・ベースのサービスがあります。これらの製品の一般的な機能は次のとおりです。
さらに、多くのETLツールはELT機能を組み込み、人工知能(AI)アプリケーション向けのリアルタイムデータとストリーミングデータの統合をサポートするように進化しました。
アプリケーション・プログラミング・インターフェース(API)は、エンタープライズ・アプリケーション統合(EAI)を使用してETLの代わりとして利用でき、ワークフロー統合を含むより柔軟でスケーラブルなソリューションを実現します。ETLは依然として主要なデータ統合リソースでありながら、EAIはWebベースの設定でAPIと共に使用されることが増えています。
クラウドネイティブのInsightプラットフォーム上でモダナイズのETLツールを使用して信頼できるデータパイプラインを構築。
IBMのデータ統合ソリューションを活用して、生成AIへの取り組み、リアルタイム分析、ウェアハウスのモダナイゼーション、運用上のニーズに合わせて、レジリエンスがあり高性能でコスト最適化されたデータ・パイプラインを構築しましょう。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。