データオブザーバビリティとは、組織内のさまざまなプロセス、システム、パイプラインにわたってデータの品質、可用性、信頼性を確保する方法でデータを監視、管理、維持する方法を指します。
データの可観測性とは、データの健全性とデータ エコシステム全体のその状態を真に理解することです。 これには、問題を説明するだけの従来の監視を超えたさまざまなアクティビティが含まれます。 データの可観測性は、データの問題をほとんどリアルタイムに特定、トラブルシューティングおよび解決するのに役立ちます。
データ可観測性ツールの活用は、データの信頼性の核心である不良データの問題を事前に解決するために不可欠です。 これらのツールにより、自動監視、トリアージアラート、追跡、比較、 根本原因分析、ロギング、データリネージ、サービスレベルアグリーメント(SLA)追跡が可能になり、これらすべてが連携して、データの信頼性を含むエンドツーエンドのデータ品質を理解するのに役立ちます。
データ可観測性ソリューションの実装は、データを使用して洞察を得たり、機械学習モデルを開発したり、イノベーションを推進したりする現代のデータ チームにとって特に重要です。 データが潜在的な負債ではなく、貴重な資産であり続けることを保証する。
データの可観測性は、エンドツーエンドのデータ ライフサイクル全体を通じて一貫して注入される必要があります。 そうすることで、関係するすべてのデータ管理活動が標準化され、チーム全体で一元化されるため、組織全体の問題や影響を明確かつ途切れることなく把握することができる。
データ観測可能性は、データ運用(DataOps)の実践を可能にするデータ品質ムーブメントの自然な進化である。
AI をスケールするための機能強化やコスト最適化の機会など、データ レイクハウス戦略をデータ アーキテクチャに統合することの威力を実感してください。
単純明快ですが、ほとんどの組織は自社のデータは信頼できないと考えています。
この悪いデータの影響を過小評価することはできません。 2022 年 5 月、Unity Software は大規模顧客から不良データを取り込んでいたことが判明し、これにより同社の株価が 30% 急落し3 、最終的に 1 億 1,000 万ドルの収益損失が発生しました4 。
従来、手遅れになるまで不良データを特定することは困難でした。 アプリケーションがダウンしてすぐに何千人ものユーザーに影響を与える場合とは異なり、企業は長期間にわたって、気付かないうちに不良データを操作する可能性があります。 例えば、Salesforceのダッシュボードが読み込まれていない場合、営業チームはすぐに気づくだろうが、ダッシュボードに不正なデータが表示されていることを把握するのにどれだけ時間がかかるかわからない。
データの可観測性は、不正なデータの侵入に対する最善の防御策です。 データ パイプラインを監視して、データが完全、正確、タイムリーに配信されるようにします。これにより、データ チームはデータのダウンタイムを防ぎ、データ SLA を遵守し、表示されるデータに対する企業の信頼を維持できます。
最新のデータ システムはさまざまな機能を提供し、ユーザーがさまざまな方法でデータを保存したりクエリしたりできるようにします。 もちろん、追加する機能が増えるほど、システムが正しく動作することを確認することはより複雑になります。 この合併症には次のようなものがあります。
より多くの外部データソース
以前は、データ インフラストラクチャは少量のデータ (通常は少数の内部データ ソースからの運用データ) を処理するために構築されており、データが大きく変更されることは期待されていませんでした。 現在、多くのデータ製品は内部および外部ソースからのデータに依存しており、これらのデータが収集される膨大な量と速度は、予期せぬドリフト、スキーマの変更、変換、遅延を引き起こす可能性がある。
より複雑な変換
外部データソースからより多くのデータを取り込むと、すべてのデータを他のすべての形式に変換し、構造化し、集約してすべてを使用できるようにする必要があります。 さらに悪いことに、これらのフォーマットがまったく変更されると、厳密にコーディングされたロジックが新しいスキーマに適応できなくなるため、下流で障害が発生するというドミノ効果が発生します。
分析エンジニアリングに重点を置きすぎる
複雑な取り込みパイプラインにより、このエンドツーエンドのプロセスを簡素化するツールの市場が生まれ、主に取り込みと抽出、変換、ロード (ETL)/抽出、ロード、変換 (ELT) プロセスが自動化されます。 これらを組み合わせることで、分析業界が「最新のデータ スタック」 (MDS) と呼ぶデータ プラットフォームが得られます。 MDS の目標は、エンドユーザー (通常はアナリスト) がデータを使用できるようになるまでの時間を短縮し、エンドユーザーがそのデータの活用をより迅速に開始できるようにすることです。 ただし、自動化が進むほど、データの配信方法を制御できなくなります。 これらの組織は、データが期待どおりに配信されることをより確実にできるように、カスタム データ パイプラインを構築する必要があります。
データ操作 (DataOps) は、企業が製品をより効率的に作成および保守できるように、アジャイルな配信パイプラインとフィードバック ループを可能にするワークフローです。 DataOps を使用すると、企業はプロトタイピングから製品導入まで、分析プロジェクトのすべての段階で同じツールと戦略を使用できます。
DataOpsサイクルは、DataOpsワークフロー内のデータ管理を改善するために必要な基本的なアクティビティの概要を示しています。 このサイクルは、検出、認識、反復という3つの異なる段階で構成されています。
検知
DataOps の動きの基盤はデータ品質への取り組みに基づいているため、このサイクルは検出から始まることが重要です。
DataOps サイクルのこの最初の段階は検証に重点を置いています。 これらには、データ ウェアハウスの開始以来使用されてきたものと同じデータ品質チェックが含まれます。 彼らは、列スキーマと行レベルの検証を検討していました。 基本的には、すべてのデータセットがデータ・システムのビジネス・ルールに準拠していることを確認することになる。
検出段階に存在するこのデータ品質フレームワークは重要ですが、その性質上、反動的です。 データレイクやデータウェアハウスにすでに保存されている(そしておそらくすでに活用されている)データが、期待する形になっているかどうかを知ることができるのだ。
データセットを検証し、既知のビジネス ルールに従っていることに注意することも重要です。 問題の原因が分からなければ、エンジニアが従うべき新しいビジネス ルールを確立することはできません。 この認識は、ソース・データから始まり、データ・ライフサイクルの全段階に直接結びつく継続的なデータ観測可能性アプローチへの需要を煽る。
認識
認識は、DataOps フェーズの可視性に重点を置いた段階です。 ここでデータ ガバナンスに関する議論が登場し、メタデータ ファーストのアプローチが導入されます。 データエコシステム全体のパイプラインとデータセットのメタデータを一元化して標準化することで、チームは組織全体の問題を可視化できます。
メタデータの一元化は、組織がデータのエンドツーエンドの健全性を認識できるようにするために重要です。 これにより、データの問題を解決するためのより積極的なアプローチに移行できるようになります。 「ドメイン」に不正なデータが入っている場合は、データ システムの上流の特定の時点までエラーを追跡できます。 例えば、データ・エンジニアリング・チームAは、データ・エンジニアリング・チームBのパイプラインを見て、何が起こっているのかを理解し、問題を解決するために協力することができる。
その逆も同様です。 データ エンジニアリング チーム B は、問題を検出し、それがダウンストリームの依存関係にどのような影響を与えるかを追跡できます。 つまり、データ エンジニアリング チーム A は問題が発生することを認識し、それを封じ込めるために必要なあらゆる対策を講じることができます。
反復
ここで、チームはコードとしてのデータに焦点を当てます。 サイクルのこの段階は、プロセスに重点が置かれています。 チームは、すべてのデータ開発に適用される反復可能で持続可能な標準を確保することで、パイプラインの最後に同じ信頼できるデータを得られるようにしている。
問題の検出、上流の根本原因の認識、反復のための効率的なプロセスによって、データ プラットフォーム全体の健全性の段階的な改善が可能になりました。
データ可観測性戦略を適切に実行すると、データの品質、意思決定、信頼性、組織全体のパフォーマンスの向上に貢献するさまざまなメリットが得られます。 主な利害関係者を下に挙げます。
データの可観測性により、チームは欠損値、重複レコード、一貫性のない形式などの問題を、下流の依存関係に影響を与える前に早期に検出できます。 高品質のデータを使用すると、組織はデータに基づいてより適切な意思決定を行うことができ、運用、顧客満足度、全体的なパフォーマンスの向上につながります。
データの可観測性により、チームは異常検出、リアルタイムの監視、アラートを通じてデータのエラーや逸脱を迅速に特定できます。 トラブルシューティングと問題解決が迅速化されるため、ダウンタイムのコストと重大度を最小限に抑えることができます。
データ可観測性プラットフォームが提供する共有ダッシュボードを使用することで、さまざまな関係者が重要なデータセットのステータスを可視化できるため、チーム間のコラボレーションを促進できます。
データ可観測性ツールは、ボトルネックやパフォーマンスの問題を正確に特定するのに役立ち、エンジニアがシステムを最適化してリソースの使用率を高め、処理時間を短縮できるようにします。 さらに、自動化によりデータの健全性を維持するために必要な時間と労力が削減され、データ エンジニア、アナリスト、データ サイエンティストはデータから価値を引き出すことに注力できるようになります。
データオブザーバビリティは、金融、医療、電気通信などの規制の厳しい業界の組織が、データが正確性、一貫性、およびセキュリティに必要な基準を満たしていることを確認するのに役立ちます。 これにより、コンプライアンス違反やそれに伴う罰則のリスクが軽減されます。
高品質のデータは、顧客のニーズ、好み、行動を理解するために不可欠であり、これにより組織はよりパーソナライズされた関連性の高いエクスペリエンスを提供できるようになります。 データの可観測性により、組織は正確で最新の顧客データを維持し、顧客満足度と顧客ロイヤルティを向上させることができます。
可観測性を通じてデータ品質を向上させることで、組織は新たな洞察を引き出し、傾向を特定し、収益を生み出す潜在的な機会を発見できます。 データ資産を最大限に活用することで、組織は収益と成長を増やすことができます。
データ可観測性の 5 つの柱を組み合わせることで、データの品質と信頼性についての貴重な洞察が得られます。
1.鮮度
鮮度は、データがどの程度最新であるか、およびデータが更新される頻度を表します。 データの古さは、データが更新されていない重要な時間的ギャップがある場合に発生します。 データ パイプラインが破損する場合、多くの場合、その原因は鮮度の問題です。
2. 配布
データのフィールドレベルの健全性の指標である分布は、データが許容範囲内にあるかどうかを指します。 予想される分布からの逸脱は、データ品質の問題、エラー、または基礎となるデータ ソースの変更を示している可能性があります。
3.ボリューム
ボリュームとは、さまざまなプロセスやパイプラインを通じて生成、取り込み、変換、移動されるデータの量を指します。 また、データテーブルの完全性についても言及します。 データ量が期待される閾値を満たしているかどうかは、重要な指標である。
4. スキーマ
スキーマはデータの構成を記述します。 スキーマを変更すると、多くの場合、データが壊れます。 データの可観測性は、データが一貫して編成され、さまざまなシステム間で互換性があり、ライフサイクル全体にわたってデータの整合性を維持するのに役立ちます。
5. リネージュ
リネージュの目的は、「どこで?」という質問に答えることです。データが壊れたとき。 データをソースから最終位置まで調べて、何が変更されたか、変更された理由、途中でどのように変更されたかを含む変更を記録します。 リネージュは、ほとんどの場合、視覚的に表されます。
データの可観測性はデータ品質をサポートしますが、この 2 つはデータ管理の異なる側面です。
データ可観測性のプラクティスは、データセット内の品質の問題を指摘することはできますが、それ自体で良好なデータ品質を保証することはできません。 そのためには、データの問題を修正し、そもそもの発生を防ぐための努力が必要です。 一方、データ観測可能性イニシアチブを実施しなくても、組織が強力なデータ品質を持つことは可能である。
データ品質モニタリングは、データ セットの状態が運用アプリケーションや分析アプリケーションでの使用目的に十分であるかどうかを測定します。 その判断を行うために、精度、完全性、一貫性、有効性、信頼性、適時性などの品質のさまざまな側面に基づいてデータが検査されます。
データの観測性とデータ ガバナンスは、相互にサポートし合う補完的なプロセスです。
データ ガバナンスは、組織のデータが利用可能で、一貫性があり、安全であること、およびデータが内部標準とポリシーに準拠して使用されていることを保証することを目的としています。 ガバナンス プログラムには、データ品質向上の取り組みが組み込まれているか、データ品質向上の取り組みと密接に結びついていることがよくあります。
強力なデータ ガバナンス プログラムは、データ可観測性の実践の価値を制限する可能性があるデータ サイロ、データ統合の問題、およびデータ品質の低下を排除するのに役立ちます。
データの可観測性は、データの品質、可用性、系統の変化を監視することでガバナンス プログラムに役立ちます。
すべてのデータ観測性が同じように作成されるわけではありません。 達成できるコンテキストのレベルは、どのようなメタデータを収集して可視化できるかによって異なります。 これは、データ可観測性の階層として知られています。 各レベルは次のレベルの基礎となり、より細かい粒度の可観測性を達成できるようになります。
運用とデータセットの健全性を可視化することは、データ観測可能性フレームワークの健全な基盤である。
保存データ
データセットの健全性の監視とは、データセット全体を監視することを指します。 データが固定された場所にある間、データの状態を認識できるようになります。これは「保存データ」と呼ばれます。
データセットの監視は、次のような質問に答えます。
移動中のデータ
運用監視とは、パイプラインの状態を監視することです。 このタイプの監視により、データが変換され、パイプライン内を移動している間のデータの状態を把握できます。 このデータ状態は「移動中のデータ」と呼ばれます。
パイプライン監視は、次のような質問に答えます。
データセットとデータ パイプラインのモニタリングは通常、2 つの異なるアクティビティに分けられますが、可観測性の強固な基盤を実現するには、それらを結合しておくことが不可欠です。 これら 2 つの状態は高度に相互接続されており、互いに依存しています。 これら 2 つのアクティビティを別のツールまたはチームにサイロ化すると、データの健全性を高レベルで把握することがさらに困難になります。
列レベルのプロファイリングは、この階層の鍵です。 列レベルのプロファイリングは、そのための強固な基盤が構築されれば、行レベルだけでなく列レベルでも、組織の新しいビジネスルールを確立し、既存のビジネスルールを実施するために必要な洞察を与えてくれる。
このレベルの認識により、データ品質フレームワークを非常に実用的な方法で改善できます。
これにより、次のような質問に答えることができます。
ここから、可観測性の最終レベルである行レベルの検証に進むことができます。 これにより、各行のデータ値が調べられ、それらが正確であることが検証されます。
このタイプのオブザーバビリティでは、次の点に注目します。
組織が行レベルの検証でトンネルビジョンを取得すると、木を見て森を見ることが難しくなります。 運用およびデータセットの監視から始まる可観測性フレームワークを構築することで、問題の根本原因とその下流への影響に焦点を当てながら、データの健全性に関する全体像のコンテキストを取得できます。
以下は、可観測性パイプラインを構築するために通常必要となる主な手順です。 このプロセスには、さまざまなツールやテクノロジーの統合、および組織内のさまざまなチームのコラボレーションが含まれます。
オブザーバビリティパイプラインの構築は、継続的な学習と改善のプロセスです。 小規模から始めて、経験から学び、オブザーバビリティ機能を徐々に拡大することが重要です。
IBM Databandは可観測性ソフトウェアで、メタデータを自動的に収集して履歴ベースラインを構築し、異常を検知してトリアージ・アラートを発信し、データ品質の問題を修復するデータ・パイプラインとデータ・ウェアハウスに対応しています。
IBM DataStageはETLとELTのパターンをサポートしており、オンプレミスにもクラウドにも対応する柔軟でほぼリアルタイムのデータ統合を実現します。
IBM Knowledge CatalogはAI時代を支えるインテリジェントなデータ・カタログで、データと知識資産、そしてその関係へのアクセス、管理、分類、共有を可能にします。
データ可観測性の利点と、それがデータ ファブリックなどのデータ アーキテクチャにどのように適合するかを理解します。
このガイドを詳しく読んで、データ取り込みとは何か、それが重要である理由、さまざまな種類のデータ取り込み、および効果的なデータ取り込みのためのいくつかのベスト プラクティスを正確に学びましょう。
ELTとは何か、プロセスがどのように機能するのか、ETLとの違い、その課題と制限事項、そしてELTパイプラインを実装するためのベスト・プラクティスについて説明しています。
1データ整合性のトレンド: 2021 年の最高データ責任者の視点(リンクは ibm.com 外にあります) 正確には、2021 年 6 月
2データを活用した企業: 組織がデータのマスタリーを強化する必要がある理由(リンクは ibm.com の外にあります)、キャップジェミニ、2021年2月
3 Unity Software の株価は、収益見通しが弱いため 30% 近く急落(リンクは ibm.com の外にあります)、MarketWatch、2022年5月10日
4 Unity Software の仮想世界が厳しい現実に直面している 2 つの理由 ( リンクは ibm.com 外にあります )ザ・モトリー・フール、2022年7月17日