データ・リネージュとは

データ・リネージュとは

データ・リネージュとは、時間の経過に伴うデータの流れを追跡し、データの発生元、変更方法、データ・パイプライン内での最終的な保管先を明確に把握するプロセスです。

データ・リネージュ・ツールは、ソース情報や、ETLまたはELTプロセス中に適用されたデータ変換など、ライフサイクル全体にわたるデータの記録を提供します。

このタイプの文書化により、ユーザーはデータの流れに沿ったさまざまなタッチポイントを観察および追跡することができ、組織は正確性と一貫性を検証できます。これは、組織内のデータ品質を確保するための重要な機能です。一般に、過去のプロセスに関するコンテキストを取得したり、エラーを根本原因まで追跡したりするためにも使用されます。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ・リネージュ、データ出所、データ・ガバナンスの違い

データ・リネージュ、データ来歴、データ・ガバナンスは密接に関連した用語であり、相互に重なり合っています。これらを組み合わせることで、組織は長期にわたるデータの品質とセキュリティーを維持できるようになります。

データ・ガバナンスは、データ・ライフサイクル全体にわたってデータ所有者、ビジネス条件、ルール、ポリシー、プロセスを定義することにより、組織内にデータ資産を管理するための構造を作成します。データ・リネージュ・ソリューションは、データ・ガバナンス・チームがデータがこれらの基準に準拠していることを保証し、パイプライン内でデータがどのように変更されるかを可視化するのに役立ちます。データの来歴は通常、データ・リネージュのコンテキストで使用されますが、具体的にはそのデータまたはそのソースの最初のインスタンスを指します。

データ・リネージュは、非常に細かいレベルでデータの監査証跡を提供します。このタイプの詳細は、データ・エラーのデバッグに非常に役立ち、データ・エンジニアがより効果的にトラブルシューティングを行い、より迅速に解決策を特定できるようになります。データ・ガバナンスの範囲はデータ・リネージュやデータ来歴よりも広範囲ですが、データ管理におけるこの側面は組織の基準を実行する上で欠かせません。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

企業がデータ・リネージュを使用する理由

営業から人事まで、ビジネスのあらゆる側面でより適切な意思決定とプロセス改善を推進するには、信頼できるデータが不可欠です。ただし、洞察の質はデータの品質によって決まるため、こうした情報は利害関係者がその正確性に確信を持てる場合にのみ価値があります。データ・リネージュにより、データ移行、システム更新、エラーなどの結果として発生する可能性のある変更を可視化し、ライフサイクル全体にわたってデータの整合性を確保します。

データ・リネージュは、さまざまなビジネス・アプリケーションやITアプリケーションにおけるエンタープライズ・データ間の関係を文書化します。これらの詳細には、次のものが含まれます。

データがどこで、（オンプレミス、データウェアハウス、データレイクなどの環境で）どのように保管されているか。
データがどのように使用されるか、またデータの更新、使用、変更の責任者は誰か。これには、機密データの特定のセグメントにアクセスすることを許可されているロールとアプリケーションも含まれます。例:個人情報（PII）
ビジネス・ユーザーおよびアプリケーションによって生成、アップロード、変更されたデータの追跡。例えば、顧客関係管理（CRM）システムへの連絡先の追加や、重複レコードの削除などのデータ変換がこれに該当します。
ネットワーク・ハードウェアやサーバーなど、組織のさまざまな部分から作成および統合されたデータ。

データ・リネージュの仕組み

メタデータにより、データ・リネージュ・ツールのユーザーは、データがデータ・パイプライン内の移動を完全に把握できます。メタデータは「データに関するデータ」であり、これには、データ資産の種類、形式、構造、作成者、作成日、変更日、ファイル・サイズなど、さまざまな情報が含まれます。データ・リネージュ・ツールは、メタデータの全体像を提供し、ユーザーがデータがどれほど有用であるかを判断する際に役立ちます。

近年、ビッグデータの進化に伴い、データの保管方法や活用方法も進化しています。企業は意思決定とビジネス成果を促進するために、データサイエンスへの投資を増やしています。ただし、適切な分析を構築するには、データ検出とデータ・マッピングの演習にデータ・リネージュ・ツールとデータ・カタログを活用する必要があります。データ・リネージュ・ツールはメタデータを通じて時間の経過に伴うデータの進化を示しますが、データ・カタログは同じ情報を使用して、組織内のすべてのデータ資産の検索可能なインベントリーを作成します。これらを組み合わせることで、データ市民は特定の結果に対するさまざまなデータ要素の重要性を理解できるようになります。これは、機械学習アルゴリズムの開発の基礎となります。

データ・リネージュのユースケース

今日、企業ではリアルタイムの洞察に対するニーズが高まっていますが、それらを得られるか否かは、データとパイプライン全体にわたるその流れを理解できるかにかかっています。チームがエンドツーエンドのデータ・リネージュ・ツールを活用してワークフローを改善する方法には、次のようなものがあります。

データ・モデリング： 企業内のさまざまなデータ要素とそれに対応するリンクを視覚的に表現するために、企業はそれらをサポートする基盤となるデータ構造を定義する必要があります。データ・リネージュは、これらの関係をモデル化し、データ・エコシステム全体のさまざまな依存関係を示すのに役立ちます。データは時間の経過とともに進化するため、常に新しいデータ・ソースが出現し、新しいデータ統合を行う必要があります。その結果、企業がデータを管理するために使用する全体的なデータ・モデルも、変化する環境に適応する必要があります。データ・リネージュは、データ・モデル・ダイアグラムを通じてこれらの変化を正確に反映し、新しいまたは古い接続やテーブルを強調表示するのに役立ちます。これにより、アナリストやデータサイエンティストはデータ・セットをより深く理解できるため、価値のあるタイムリーな分析ができるようになります。

データ移行： データを新しいストレージ・システムに移動したり、新しいソフトウェアを導入したりする場合、組織はデータ移行を使用して、データの場所とライフサイクルを把握します。データ・リネージュは、このデータが組織内でどのように進行したかを示すため、チームがこれらのシステム移行やアップグレードを計画するのに役立ち、新しいストレージ環境への全体的な移行を迅速化します。また、データ・システムをクリーンアップして、古い無関係なデータをアーカイブまたは削除する機会もチームに提供します。これにより、データ・システムの全体的なパフォーマンスが向上し、管理する必要のあるデータの量が削減されます。

コンプライアンス： データ・リネージュは、監査、リスク管理の改善、およびデータ・ガバナンス・ポリシーと規制に従ってデータが保存および処理されることを保証するコンプライアンス・メカニズムを提供します。例えば、2016年には、欧州連合および欧州経済圏に暮らす人々の個人データを保護するためにGDPR法が制定され、個人が自分のデータをより細かく制御できるようになりました。米国では、カリフォルニア州などの各州がCalifornia Consumer Privacy Act（CCPA）などのポリシーを施行し、企業が消費者にデータの収集について通知することを義務付けました。この種の法律では、このデータの保存とセキュリティーが最優先事項となっており、データ・リネージュ・ツールがなければ、組織にとってコンプライアンス違反の問題は時間と費用のかかる作業であると理解することになったでしょう。

影響分析： データ・リネージュ・ツールを使用すると、ダウンストリーム・レポートなどの特定のビジネス変更の影響を可視化できます。例えば、データ要素の名前が変更された場合、データ・リネージュを使用すると、リーダーは影響を受ける可能性のあるダッシュボードの数と、そのレポートにアクセスするユーザーの数を把握できます。また、データ・エラーの影響と組織全体への露出を評価するのにも役立ちます。データ・エラーはさまざまな理由で発生する可能性があり、特定のビジネス・インテリジェンス・レポートまたはデータ・ソースの信頼性が低下する可能性がありますが、データ・リネージュ・ツールを使用すると、チームがエラーをソースまで追跡して、データ処理の最適化と各チームへのコミュニケーションを実現できます。

データ・リーダー向けAI対応データ関連ガイド

データ・リーダーがこれらの課題を克服し、信頼できるデータ基盤の基礎を確立し、組織のデータをAIに対応させるために実行できる実行可能な手順について学びましょう。

参考情報

AIエージェントはデータに基づいて実行されます。準備はできていますか?

データは競争上の優位性です。この短時間のWebセミナーでは、安全な方法でAIを解き放ち、測定可能なROIを達成する方法を紹介します。

IDC MarketScape：ワールドワイド・データ・インテリジェンス・プラットフォーム・ソフトウェア2024年度ベンダー・アセスメント

データ・インテリジェンス・ソフトウェア市場におけるベンダーの評価と位置付けを示すこのIDC評価レポートで、IBMがリーダーに選出された理由をご覧ください。

お客様のデータは生成AIに向けた準備ができていますか

当社の「Data Matters」ハブで、統合などのデータとAIの課題に取り組む方法を学びましょう。

データ・プロダクトの共有を可能にすることでデータの価値を解き放つ

ビジネスを成功に導く社内データ共有の効果を最大限に高めるための主要なベスト・プラクティスを学びます。

データ・インテリジェンス：暗闇からデータを開放しましょう

データ・インテリジェンスがガバナンス、品質、リネージュ、共有を統合して、未加工データを信頼できる洞察に変える方法をご覧ください。

データから洞察へ：データ・インテリジェンスによるジャーニーの計画

データ・インテリジェンスから実行可能な洞察を導き出すための変革的なプロセスとベスト・プラクティスをご覧ください。