データ品質はデータ・セットが正確性、完全性、有効性、一貫性、一意性、適時性、目的への適合性という基準をどの程度満たしているかを測るものであり、組織内で行うデータ・ガバナンスのあらゆる取り組みにとって重要です。
データ品質基準は、企業がビジネス目標を達成するためにデータに基づいた意思決定を行っていることを保証します。重複データ、欠損値、外れ値といったデータの問題が適切に対処されない場合、企業はビジネスに悪影響がもたらされるリスクを高めてしまいます。Gartner社のレポートによれば、データ品質が悪いと、企業には年平均で1,290万USDのコストがかかります1。その結果、データ品質の低さに伴う悪影響を軽減するデータ品質ツールが登場しました。
データ品質が使用目的の基準を満たしている場合、データ・コンシューマーはそのデータを信頼して意思決定の改善に活用し、新しいビジネス戦略の開発や既存戦略の最適化につなげることができます。反対に基準が満たされていない場合、データ品質ツールは根本的なデータの問題を企業が診断する際の手助けとなることで価値を発揮します。根本原因の分析により、チームはデータ品質の問題を迅速かつ効果的に修正できるようになります。
データ品質は、日常の業務運営における優先事項というだけではありません。企業が人工知能(AI)やオートメーション・テクノロジーをワークフローに統合する中で、これらのツールを効果的に導入するために高品質のデータが不可欠となるのです。「ゴミを入れればゴミが出てくる」という格言が古くからありますが、これは機械学習アルゴリズムにも当てはまります。アルゴリズムが不良データで予測または分類の学習をしていると、不正確な結果が生じることが予想されます。
チームが責任あるAIを加速するのに役立つ構成要素とベスト・プラクティスについて説明します。
データリーダー向けガイドを読む
データ品質、データ整合性、データ・プロファイリングはすべてが相互に関連しています。データ品質はより広義な基準カテゴリーであり、組織が正確性、完全性、有効性、一貫性、一意性、適時性、目的への適合性からデータを評価する目的で利用します。データ整合性は、これらの属性の一部、特に正確性、一貫性、完全性に焦点を絞っています。またデータ・セキュリティーの観点から、さらにこれに重点を置き、悪意のある攻撃者によるデータ破損を防ぐための保護手段を実装します。
一方データ・プロファイリングは、組織内でデータ品質基準を維持するためにデータを確認および洗浄するプロセスに焦点を当てています。これらのプロセスを支援するテクノロジーも含まれます。
データ品質は複数の要素に基づいて評価されます。次元の数は情報源によって異なる場合があります。データ品質のメトリクスを分類するために使用されます。
これらの測定基準は、チームが組織全体でデータ品質を評価し、データが特定の目的に対してどの程度有益かつ有用であるかを評価するのに役立ちます。
過去10年間のハイブリッドクラウド、人工知能、モノのインターネット(IoT)、エッジコンピューティングの発展により、ビッグデータは飛躍的に増加しました。その結果、Master Data Management(MDM)の実践が複雑化し、高いデータ品質を確保するにはさらに多くのデータ管理者と厳格な保護手段が求められるようになりました。
企業はデータ品質管理を利用して、ビジネス・インテリジェンスのダッシュボードといったデータ分析の取り組みをサポートしています。これがなければ、業界によっては倫理的なものを含め壊滅的な結果を招く可能性があります(例:医療)。データ品質ソリューションは企業がデータを最大限に活用できるように支援すべく存在しており、次のような主要なメリットがあります。
1 Gartner社、『How to Improve Your Data Quality』(ibm.com外部へのリンク)、2021年7月14日