ホーム Topics データ品質 データ品質とは
IBMのデータ品質ソリューションはこちら AI関連の最新情報の購読を申し込む
 以下の雲、円グラフ、グラフのピクトグラムのコラージュを使用したイラスト
データ品質とは

データ品質はデータ・セットが正確性、完全性、有効性、一貫性、一意性、適時性、目的への適合性という基準をどの程度満たしているかを測るものであり、組織内で行うデータ・ガバナンスのあらゆる取り組みにとって重要です。

データ品質基準は、企業がビジネス目標を達成するためにデータに基づいた意思決定を行っていることを保証します。重複データ、欠損値、外れ値といったデータの問題が適切に対処されない場合、企業はビジネスに悪影響がもたらされるリスクを高めてしまいます。Gartner社のレポートによれば、データ品質が悪いと、企業には年平均で1,290万USDのコストがかかります1。その結果、データ品質の低さに伴う悪影響を軽減するデータ品質ツールが登場しました。

データ品質が使用目的の基準を満たしている場合、データ・コンシューマーはそのデータを信頼して意思決定の改善に活用し、新しいビジネス戦略の開発や既存戦略の最適化につなげることができます。反対に基準が満たされていない場合、データ品質ツールは根本的なデータの問題を企業が診断する際の手助けとなることで価値を発揮します。根本原因の分析により、チームはデータ品質の問題を迅速かつ効果的に修正できるようになります。

データ品質は、日常の業務運営における優先事項というだけではありません。企業が人工知能(AI)やオートメーション・テクノロジーをワークフローに統合する中で、これらのツールを効果的に導入するために高品質のデータが不可欠となるのです。「ゴミを入れればゴミが出てくる」という格言が古くからありますが、これは機械学習アルゴリズムにも当てはまります。アルゴリズムが不良データで予測または分類の学習をしていると、不正確な結果が生じることが予想されます。

 

AIガバナンスの活用で責任あるAIワークフローを構築

チームが責任あるAIを加速するのに役立つ構成要素とベスト・プラクティスについて説明します。

関連コンテンツ

データリーダー向けガイドを読む

データ品質、データ整合性、データ・プロファイリングの比較

データ品質、データ整合性、データ・プロファイリングはすべてが相互に関連しています。データ品質はより広義な基準カテゴリーであり、組織が正確性、完全性、有効性、一貫性、一意性、適時性、目的への適合性からデータを評価する目的で利用します。データ整合性は、これらの属性の一部、特に正確性、一貫性、完全性に焦点を絞っています。またデータ・セキュリティーの観点から、さらにこれに重点を置き、悪意のある攻撃者によるデータ破損を防ぐための保護手段を実装します。

一方データ・プロファイリングは、組織内でデータ品質基準を維持するためにデータを確認および洗浄するプロセスに焦点を当てています。これらのプロセスを支援するテクノロジーも含まれます。

データ品質の要素

データ品質は複数の要素に基づいて評価されます。次元の数は情報源によって異なる場合があります。データ品質のメトリクスを分類するために使用されます。

  • 完全性:使用可能または完全なデータの量を表します。欠損値の割合が高い場合、データが典型的なデータ・サンプルを表していないと偏った分析や誤解を招く分析になる可能性があります。
  • 一意性:データ・セット内の重複データの量を表します。たとえば顧客データを確認する場合、各顧客に一意の顧客IDがあることを前提とする必要があります。
  • 有効性:この要素は、データがビジネス・ルールに求められるフォーマットにどの程度一致するかを測定します。フォーマットには通常、有効なデータ型、範囲、パターンなどのメタデータが含まれます。
  • 適時性:この要素は、予想される時間枠内におけるデータの準備状況を指します。たとえば、顧客は購入後にすぐに注文番号を受け取ることを期待しており、データはリアルタイムで生成されるべきです。
  • 正確性:合意された「信頼できる情報源」に基づくデータ値の正しさを指します。同じ測定基準に基づいて情報を提供するソースが複数あるため、主要なデータ・ソースを指定することが重要です。他のデータ・ソースは、データ・ソースの正確性を確認するために利用できます。たとえば、各データ・ソースが同じ方向の傾向を示していることをツールで確認すれば、データの正確性に対する信頼が高まります。
  • 一貫性:2つの異なるデータ・セットから取得したデータ・レコードを評価します。前述したように、複数のソースが1つの測定基準に基づいて情報を提供する場合があります。異なるソースを使用して一貫性のあるデータの傾向と振る舞いを確認することにより、組織は分析から得られた実行可能な洞察を信頼できるのです。このロジックは、データ間の関係にも適用できます。ある部門の従業員数が会社の総従業員数を超えてはならない、という例が挙げられます。
  • 目的への適合性:最後に、目的への適合性はデータ資産が確実にビジネス・ニーズを満たすのに役立ちます。この要素は、特に新しく作られたばかりのデータ・セットだと評価が難しい場合があります。

これらの測定基準は、チームが組織全体でデータ品質を評価し、データが特定の目的に対してどの程度有益かつ有用であるかを評価するのに役立ちます。

データ品質が重要である理由

過去10年間のハイブリッドクラウド人工知能、モノのインターネット(IoT)、エッジコンピューティングの発展により、ビッグデータは飛躍的に増加しました。その結果、Master Data Management(MDM)の実践が複雑化し、高いデータ品質を確保するにはさらに多くのデータ管理者と厳格な保護手段が求められるようになりました。

企業はデータ品質管理を利用して、ビジネス・インテリジェンスのダッシュボードといったデータ分析の取り組みをサポートしています。これがなければ、業界によっては倫理的なものを含め壊滅的な結果を招く可能性があります(例:医療)。データ品質ソリューションは企業がデータを最大限に活用できるように支援すべく存在しており、次のような主要なメリットがあります。

  • よりよいビジネス上の意思決定:高品質なデータにより、組織はさまざまなプログラムの主要業績評価指標(KPI)を特定してそのパフォーマンスを測定できます。チームはこれにより、プログラムをより効果的に改善したり成長させたりすることができます。データ品質を優先する組織が、競合他社よりも有利になることは間違いありません。
  • 業務プロセスの改善: 優れたデータは、チームが業務ワークフローの問題箇所を見つけられるということも意味します。特に、リアルタイム・データで適切な在庫と出荷後の位置を決定するサプライチェーン業界に当てはまります。
  • 顧客満足度の向上:組織、特にマーケティングと販売のチームは、高いデータ品質からターゲット購買層に関する驚くべき洞察を得られます。販売およびマーケティングのファネル全体でさまざまなデータを統合できるため、製品をより効果的に販売できるようになるのです。一例を挙げると、購買層データとウェブ行動を組み合わせれば、組織のメッセージング作成方法やマーケティング予算の投資方法、既存顧客または見込み客にサービスを提供する営業チームへのスタッフ配置方法に関する情報を提供できます。
参考情報
データ・リーダーのためのデータ・ガバナンスとプライバシー

データ・ガバナンスとプライバシーの構成要素に関するIBMガイドを読む。

データ品質とAIパフォーマンスへの3つのステップ

ステップバイステップのガイドで、データ品質とAIの実践に価値観主導のアプローチを取り入れる方法を専門家から学びましょう。

Gartner Magic Quadrant

IBMは、2023 Gartner Magic Quadrant™ for Data Integration Toolsで、18年連続でリーダーに選出されました

次のステップ

オープンなデータレイクハウス・アーキテクチャー上に構築された、目的に合ったデータ・ストアであるIBM watsonx.dataを使用すれば、あらゆるデータのAIワークロードをどこにでも拡張できます。

watsonx.dataの詳細はこちら デモの予約
出典

1 Gartner社、『How to Improve Your Data Quality』(ibm.com外部へのリンク)、2021年7月14日