データの信頼性は、データの完全性と正確性に関係しています。時間やソースにまたがって一貫性があり、エラーがないことの信頼性を表す指標です。
データの信頼性が高いほど、そのデータはより信頼できるものになります。データの信頼性は、学術研究やビジネス分析、公共政策のいずれにおいても、価値のあるインサイトを引き出し、十分な情報に基づいた意思決定を行うための強固な基盤になります。
不正確なデータや信頼性の低いデータは、不正確な結論、欠陥のあるモデル、不十分な意思決定につながります。最高データ責任者を配置する企業が増えている理由は、ここにあります。2019年から2021年の間に世界をリードする上場企業において、その数は2倍になりました。1
不正なデータのリスクと正確なデータの競争上の優位性を考えると、データの信頼性への取り組みを優先すべきです。信頼性の評価と向上に影響する要素(主に、データの可観測性が関わってきます)を理解し、改善に向けた明確な責任と目標を設定することが重要です。
エンドツーエンドのデータの可観測性を実装することで、データエンジニアチームは、品質の低いデータの問題が広がる前に問題を特定、トラブルシューティングおよび解決できます。これにより、データ・スタック全体にわたるデータの信頼性を確保できます。
プロアクティブなデータの可観測性が、データ・インシデントの早期発見と迅速な解決にどのように役立つかをご覧ください。
IBMニュースレターの購読
データの信頼性を測定するには、次の3つのコア・ファクターを確認する必要があります。
1. 有効性
データの有効性は、データが正しい方法で保存およびフォーマットされているかどうか、また、期待する測定対象を測定しているかどうかによって決まります。たとえば、現実世界の特定の現象に関する新しいデータを収集している場合、そのデータが有効なのは、その現象が正確に反映されており、外部要因の影響を受けていない場合に限られます。
2. 完全性
データの完全性により、情報に欠落がないかどうかを特定します。データが有効であっても、情報に対するユーザーの理解に影響を与える可能性のある重要なフィールドが存在しない場合、そのデータは不完全である可能性があります。不完全なデータは、偏った分析や不正確な分析につながる可能性があります。
3. 一意性
データの一意性により、データセット内の重複の有無を確認します。データの一意性は、不正確な過剰表現を避けるために重要です。
さらに一歩進めて、次のような要素を調査することもできます。
データの信頼性を測定することは、データセットに対する信頼を築き、潜在的な問題を早期に特定するために不可欠です。定期的かつ効果的なデータ・テストは、データチームが問題を迅速に特定して、問題の原因を特定し、修正するのに役立ちます。
モダン・データ・プラットフォームはテクノロジーだけでなく、DevOpsやDataOps、そしてアジャイル哲学にも支えられています。DevOpsとDataOpsの目的は全く異なりますが、双方ともプロジェクトの作業サイクルを加速させることを目的としたアジャイル哲学に似ています。
DevOpsは製品開発に重点を置いているのに対し、DataOpsはデータからビジネス価値を提供する分散データ・アーキテクチャー・システムの開発と保守に重点を置いています。
アジャイルは、スピードと効率を促進するソフトウェア開発の哲学ですが、「人間」の要素を排除しているものではありません。コミュニケーションを最大限に活用する方法として対面での対話を重視する一方で、エラーを最小限に抑える手段として自動化も重視しています。
データの信頼性と有効性は、データ品質の2つの異なる側面に対応します。
データ管理の文脈では、信頼性と有効性の質が、手元にあるデータの完全性と有用性を確保する上で重要な役割を果たします。
データの信頼性と有効性は関連していますが、互換性はありません。例えば、信頼性の高いデータ収集プロセス(一貫性のある再現可能な結果を返す)があっても、収集されたデータが検証されていない(必要なルールやフォーマットに適合していない)場合、最終結果は品質の低いデータになります。
また、完全に有効なデータ(フォーマットや整合性のルールをすべて満たしている)であっても、そのデータを収集するプロセスが信頼できない(測定や観測の度に異なる結果が得られる)場合も、そのデータの有用性や信頼性に疑問符が付きます。
データの信頼性を維持するには、あらゆる種類のデータを収集・処理するための一貫した方法を確立し、忠実に従う必要があります。データの有効性を確保するには、厳格なデータ検証プロトコルが必要です。これには、データ型チェック、範囲チェック、参照整合性チェックなどが含まれます。これらのプロトコルは、データの形式が適切であり、必要なすべてのルールに準拠していることを確認するのに役立ちます。
データ信頼性に関するイニシアチブには、次のような研究・データ分析の多くの領域における重要な問題と課題があります。
データの収集方法は、その信頼性に大きく影響する可能性があります。データの収集方法に欠陥や偏りがあった場合、データは信頼できないものになります。さらに、データの収集時点、データ入力中、データの処理または分析中に測定エラーが発生する可能性があります。
データの信頼性を高めるには、長期にわたって、またさまざまな文脈において、データの一貫性を保つ必要があります。データの収集に使用する測定技術、定義やシステムの変更により、一貫性のないデータが発生する可能性があります。
ヒューマン・エラーは、データの信頼性を損なう潜在的な原因です。間違ったデータ入力、一貫性のないデータ・コーディング、データの誤解など、さまざまな形で生じる可能性があります。
場合によっては、測定対象が時間とともに変化し、信頼性の問題を引き起こすことがあります。たとえば、消費者の行動を予測する機械学習モデルは、最初に作成した時点では信頼できるかもしれませんが、ベースとなる消費者の行動が変化すると、不正確になる可能性があります。
一貫性のないデータ・ガバナンスの実践やデータ管理の欠如は、データ品質と信頼性に対する説明責任の欠如につながる可能性があります。
データ・ソースが変更または更新されると(特に、データ形式や構造が変更されると)、データの信頼性が損なわれる可能性があります。さまざまなデータソースからのデータを統合すると、モダン・データ・プラットフォームでデータの信頼性に関する問題が発生する可能性があります。
データのレコードやエントリーが重複すると、結果が不正確になり、結果が歪んでしまう可能性があります。重複を特定して処理することは、データの信頼性を維持する上での課題です。
これらの問題や課題に対処するには、データ品質プロセス、データ・ガバナンス、データ検証、データ管理プラクティスを組み合わせる必要があります。
データの信頼性を確保することは、データ管理における健全性を担保するうえで、基本となります。データ・スタック全体にわたってデータの信頼性を維持および向上させるためのベスト・プラクティスをいくつかご紹介します。
データの可観測性とは、システム内のデータの健全性と状態を理解することです。これには、問題を説明するだけでなく、さまざまなアクティビティが含まれます。データの可観測性は、データの問題をほとんどリアルタイムに特定、トラブルシューティングおよび解決するのに役立ちます。
重要なのは、データの信頼性の核心である不良データの問題を事前に回避するには、データ可観測性が不可欠であることです。もう少し言及すると、データの可観測性には、モニタリング、アラート、トラッキング、比較、分析、ロギング、SLAのラッキング、データ系列などのアクティビティが含まれます。データの信頼性を含むエンドツーエンドのデータ品質を理解するためには、これらすべてが重要になります。
優れたデータの可観測性により、問題を早期に特定できるようになり、データの信頼性が向上します。これにより、データチーム全体がより迅速に対応し、影響の範囲を理解し、信頼性を回復できるようになります。
データの可観測性のプラクティスとツールを導入することで、組織はデータの信頼性を強化し、データのライフサイクル全体を通してデータの正確性、一貫性、信頼性を確保できます。これは、高品質のデータがBusiness Intelligence、データに基づいた意思決定、ビジネスの成果に直接影響を与える、データ・ドリブンの環境では特に重要です。
IBM® Databand®は可観測性ソフトウェアで、メタデータを自動的に収集して履歴ベースラインを構築し、異常を検知してトリアージ・アラートを発信し、データ品質の問題を修復するデータ・パイプラインとデータ・ウェアハウスに対応しています。
IBM® DataStage®はETLとELTのパターンをサポートしており、オンプレミスにもクラウドにも対応する柔軟でほぼリアルタイムのデータ統合を実現します。
IBM® Knowledge CatalogはAI時代を支えるインテリジェントなデータ・カタログで、データと知識資産、そしてその関係へのアクセス、管理、分類、共有を可能にします。
オープンなレイクハウス・アーキテクチャー上に構築され、クエリー、ガバナンス、データへのアクセスと共有を実現するオープン・データ形式で構成された、目的に合ったデータ・ストアによって、分析とAIの拡張を容易にします。
データ可観測性とは何か、なぜ重要なのか、最新のデータ・システムとともにどのように進化してきたのか、そしてデータ可観測性フレームワークを実装するためのベスト・プラクティスについて詳しく説明しています。
高品質のデータを確保することは、データエンジニアと組織全体の責任です。この記事では、データ品質の重要性、データを監査および監視する方法、主要な関係者から同意を得る方法について説明しています。
データ品質に関しては、完全性、一貫性、適合性、正確性、完全性、適時性、可用性、継続性など、多くの重要な指標があります。
1. 私たちが信頼するデータ(リンク先は、ibm.comの外部です)、PwC、2022年4月28日