データの信頼性とは| IBM

データの信頼性とは

データの信頼性は、データの完全性と正確性に関係しています。時間やソースにまたがって一貫性があり、エラーがないことの信頼性を表す指標です。

データの信頼性が高いほど、そのデータはより信頼できるものになります。データの信頼性は、学術研究やビジネス分析、公共政策のいずれにおいても、価値のあるインサイトを引き出し、十分な情報に基づいた意思決定を行うための強固な基盤になります。

不正確なデータや信頼性の低いデータは、不正確な結論、欠陥のあるモデル、不十分な意思決定につながります。最高データ責任者を配置する企業が増えている理由は、ここにあります。2019年から2021年の間に世界をリードする上場企業において、その数は2倍になりました。¹

不正なデータのリスクと正確なデータの競争上の優位性を考えると、データの信頼性への取り組みを優先すべきです。信頼性の評価と向上に影響する要素（主に、データの可観測性が関わってきます）を理解し、改善に向けた明確な責任と目標を設定することが重要です。

エンドツーエンドのデータの可観測性を実装することで、データエンジニアチームは、品質の低いデータの問題が広がる前に問題を特定、トラブルシューティングおよび解決できます。これにより、データ・スタック全体にわたるデータの信頼性を確保できます。

IBM Databandのデモを今すぐ予約する

プロアクティブなデータの可観測性が、データ・インシデントの早期発見と迅速な解決にどのように役立つかをご覧ください。

関連コンテンツ

IBMニュースレターの購読

データの信頼性の測定方法

データの信頼性を測定するには、次の3つのコア・ファクターを確認する必要があります。

1. 有効性

データの有効性は、データが正しい方法で保存およびフォーマットされているかどうか、また、期待する測定対象を測定しているかどうかによって決まります。たとえば、現実世界の特定の現象に関する新しいデータを収集している場合、そのデータが有効なのは、その現象が正確に反映されており、外部要因の影響を受けていない場合に限られます。

2. 完全性

データの完全性により、情報に欠落がないかどうかを特定します。データが有効であっても、情報に対するユーザーの理解に影響を与える可能性のある重要なフィールドが存在しない場合、そのデータは不完全である可能性があります。不完全なデータは、偏った分析や不正確な分析につながる可能性があります。

3. 一意性

データの一意性により、データセット内の重複の有無を確認します。データの一意性は、不正確な過剰表現を避けるために重要です。

さらに一歩進めて、次のような要素を調査することもできます。

データソースが変更されたかどうか、いつ変更されたか
データにどのような変更が加えられたか
データの更新頻度
データの取得元
データが使用された回数

データの信頼性を測定することは、データセットに対する信頼を築き、潜在的な問題を早期に特定するために不可欠です。定期的かつ効果的なデータ・テストは、データチームが問題を迅速に特定して、問題の原因を特定し、修正するのに役立ちます。

データの信頼性とデータ品質

モダン・データ・プラットフォームはテクノロジーだけでなく、DevOpsやDataOps、そしてアジャイル哲学にも支えられています。DevOpsとDataOpsの目的は全く異なりますが、双方ともプロジェクトの作業サイクルを加速させることを目的としたアジャイル哲学に似ています。

DevOpsは製品開発に重点を置いているのに対し、DataOpsはデータからビジネス価値を提供する分散データ・アーキテクチャー・システムの開発と保守に重点を置いています。

アジャイルは、スピードと効率を促進するソフトウェア開発の哲学ですが、「人間」の要素を排除しているものではありません。コミュニケーションを最大限に活用する方法として対面での対話を重視する一方で、エラーを最小限に抑える手段として自動化も重視しています。

データの信頼性と有効性

データの信頼性と有効性は、データ品質の2つの異なる側面に対応します。

データ管理の文脈では、信頼性と有効性の質が、手元にあるデータの完全性と有用性を確保する上で重要な役割を果たします。

データの信頼性は、さまざまな観察や測定にわたるデータの一貫性と再現性に焦点を当てたものです。基本的に、信頼できるデータは、特定の測定または観察が繰り返される度に同じ、もしくは極めて類似した結果を返します。つまり、長期にわたって、またさまざまな文脈において、データの安定性と一貫性を保証することです。
データの検証におけるデータの有効性は、データの精度、構造および完全性に関係しています。新しいデータが適切にフォーマットされ、必要なルールに準拠しており、正確で破損していないことを保証します。例えば、日付列には英数字ではなく、日付を含める必要があります。無効なデータは、アプリケーション・エラー、不正確なデータ分析結果、全体的なデータ品質質の低下など、さまざまな問題を引き起こします。

データの信頼性と有効性は関連していますが、互換性はありません。例えば、信頼性の高いデータ収集プロセス（一貫性のある再現可能な結果を返す）があっても、収集されたデータが検証されていない（必要なルールやフォーマットに適合していない）場合、最終結果は品質の低いデータになります。

また、完全に有効なデータ（フォーマットや整合性のルールをすべて満たしている）であっても、そのデータを収集するプロセスが信頼できない（測定や観測の度に異なる結果が得られる）場合も、そのデータの有用性や信頼性に疑問符が付きます。

データの信頼性を維持するには、あらゆる種類のデータを収集・処理するための一貫した方法を確立し、忠実に従う必要があります。データの有効性を確保するには、厳格なデータ検証プロトコルが必要です。これには、データ型チェック、範囲チェック、参照整合性チェックなどが含まれます。これらのプロトコルは、データの形式が適切であり、必要なすべてのルールに準拠していることを確認するのに役立ちます。

データの信頼性における問題と課題

データ信頼性に関するイニシアチブには、次のような研究・データ分析の多くの領域における重要な問題と課題があります。

データの収集と測定

データの収集方法は、その信頼性に大きく影響する可能性があります。データの収集方法に欠陥や偏りがあった場合、データは信頼できないものになります。さらに、データの収集時点、データ入力中、データの処理または分析中に測定エラーが発生する可能性があります。

データ一貫性

データの信頼性を高めるには、長期にわたって、またさまざまな文脈において、データの一貫性を保つ必要があります。データの収集に使用する測定技術、定義やシステムの変更により、一貫性のないデータが発生する可能性があります。

ヒューマン・エラー

ヒューマン・エラーは、データの信頼性を損なう潜在的な原因です。間違ったデータ入力、一貫性のないデータ・コーディング、データの誤解など、さまざまな形で生じる可能性があります。

時間の経過による変化

場合によっては、測定対象が時間とともに変化し、信頼性の問題を引き起こすことがあります。たとえば、消費者の行動を予測する機械学習モデルは、最初に作成した時点では信頼できるかもしれませんが、ベースとなる消費者の行動が変化すると、不正確になる可能性があります。

データ・ガバナンスとコントロール

一貫性のないデータ・ガバナンスの実践やデータ管理の欠如は、データ品質と信頼性に対する説明責任の欠如につながる可能性があります。

データ・ソースの変更

データ・ソースが変更または更新されると（特に、データ形式や構造が変更されると）、データの信頼性が損なわれる可能性があります。さまざまなデータソースからのデータを統合すると、モダン・データ・プラットフォームでデータの信頼性に関する問題が発生する可能性があります。

データの複製

データのレコードやエントリーが重複すると、結果が不正確になり、結果が歪んでしまう可能性があります。重複を特定して処理することは、データの信頼性を維持する上での課題です。

これらの問題や課題に対処するには、データ品質プロセス、データ・ガバナンス、データ検証、データ管理プラクティスを組み合わせる必要があります。

データの信頼性を確保するための手順

データの信頼性を確保することは、データ管理における健全性を担保するうえで、基本となります。データ・スタック全体にわたってデータの信頼性を維持および向上させるためのベスト・プラクティスをいくつかご紹介します。

データ収集の標準化：データ収集のための明確な、標準化された手順を確立します。変動を減らし、長期にわたる一貫性を確保するのに役立ちます。
データ収集者のトレーニング：データを収集する人物がヒューマン・エラーを最小限に抑えるための方法、ツール、プロトコルを理解できるように、適切に訓練する必要があります。信頼できるデータの重要性と、信頼できないデータの影響を認識する必要があります。
定期的な監査：信頼性に影響を与える可能性のある不一致やエラーを発見するには、定期的なデータ監査が重要になってきます。これらの監査は、エラーの発見だけでなく、エラーの根本原因を特定し、是正措置を実行することも目的としています。
信頼できる機器の使用：信頼性が証明されているツールと機器を使用してください。たとえば、ストリーム処理を使用している場合は、イベント・ストリームをテストおよび監視して、データの欠落や重複がないことを確認します。
データのクリーニング：厳格なデータ・クリーニング・プロセスを採用します。これには、外れ値、欠損値、不一致の特定と対処が含まれます。体系的な方法に基づいて、欠落しているデータや問題のあるデータを処理します。
Data Dictionaryの維持：Data Dictionaryは、データの種類、意味、他のデータとの関係性、ソース、使用方法、形式など、データに関する情報の一元的なリポジトリです。これにより、データの一貫性を維持し、誰もが同じ方法でデータを使用、および解釈できるようになります。
データの再現性の確保：データの収集と処理のすべてのステップを文書化することで、他の人が結果を再現できるようになります。これは、信頼性における重要な要素であり、方法論についての明確な説明、データとコードのバージョン管理の維持が含まれます。
データ・ガバナンスの実装：優れたデータ・ガバナンス・ポリシーは、データの信頼性向上に役立ちます。誰がデータにアクセスし、変更できるかについての明確なポリシーと手順を定め、データセットに対して行われたすべての変更の明確な記録を維持することが含まれます。
データのバックアップと復元：データの損失を回避するために、データを定期的にバックアップします。また、データを損失した場合に備えて、データを復元するための信頼できるシステムがあることを確認します。

データの可観測性によるデータの信頼性の向上

データの可観測性とは、システム内のデータの健全性と状態を理解することです。これには、問題を説明するだけでなく、さまざまなアクティビティが含まれます。データの可観測性は、データの問題をほとんどリアルタイムに特定、トラブルシューティングおよび解決するのに役立ちます。

重要なのは、データの信頼性の核心である不良データの問題を事前に回避するには、データ可観測性が不可欠であることです。もう少し言及すると、データの可観測性には、モニタリング、アラート、トラッキング、比較、分析、ロギング、SLAのラッキング、データ系列などのアクティビティが含まれます。データの信頼性を含むエンドツーエンドのデータ品質を理解するためには、これらすべてが重要になります。

優れたデータの可観測性により、問題を早期に特定できるようになり、データの信頼性が向上します。これにより、データチーム全体がより迅速に対応し、影響の範囲を理解し、信頼性を回復できるようになります。

データの可観測性のプラクティスとツールを導入することで、組織はデータの信頼性を強化し、データのライフサイクル全体を通してデータの正確性、一貫性、信頼性を確保できます。これは、高品質のデータがBusiness Intelligence、データに基づいた意思決定、ビジネスの成果に直接影響を与える、データ・ドリブンの環境では特に重要です。

脚注

1. 私たちが信頼するデータ（リンク先は、ibm.comの外部です）、PwC、2022年4月28日