Actions / Navigation / close / 20
マイIBM ログイン ニュースレター

ホーム

Topics

ダーク・データ

ダーク・データとは

ダーク・データとは

IBMのダーク・データ・ソリューションの詳細はこちら AI関連の最新情報の購読を申し込む
雲、円グラフ、グラフのピクトグラムをコラージュしたイラスト
ダーク・データとは

ダーク・データとは

Gartner社によると、ダーク・データとは、組織が通常の事業アクティビティで収集、処理、保管する情報資産をいいますが、多くの場合、分析、ビジネス関係、直接的な収益化といった他の目的には利用されないでいます。1

今日、ほとんどの企業では膨大な量のダーク・データを保管しています。Splunk社が世界1,300社以上の事業とITの意思決定者を対象に行ったアンケート調査では、回答者の60%が、自社データの半分かそれ以上はダークであると考えられる、と報告しました。回答者の3分の1が、その量は75%以上になる、と報告しました。2

ダーク・データが蓄積されるのは、キャプチャできる情報を可能な限りすべてビッグデータレイクに保存することに価値がある、という考えを組織が採用したからです。一つには、安価なストレージの出現により、それほどの量のデータを保管することが正当化されやすかったためです、いつの日かそれが価値あるものになった場合に、ということです。

最終的に、ほとんどの企業では、保管するデータのほんの一部も利用することがありません。ストレージという貯蔵庫のメタデータ・ラベルが十分に文書化されていない、一部のデータが統合ツールで読み取れない形式になっている、データがクエリで取得できない、というのが理由です。

ダーク・データは、優れたデータ分析結果を出すためには大きな制限要因です。なぜなら、どのようなデータ分析でも、その質は、分析ツールで迅速に、かつディテールまでアクセスできる情報本体に左右されるからです。

ダーク・データに関する問題は他にもあります。チームがどのデータを利用できるかという潜在的可能性を認識していないことにより、負債や多額のストレージ・コストが発生し、機会を逸失していることです。

エンタープライズAIを拡張するために、AIガバナンスがビジネス上不可欠である理由

特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。

関連コンテンツ IDCレポートを読む
データがダークになる原因

データがダークになる原因

組織のデータがダークになる原因は数多くあります。次のようになります。

  • 認識の欠如:通常のビジネス・オペレーションの過程で取得されるデータは、しばしばダークになります。組織がデータの存在を認識していないか、その価値や関連性を把握していないためです。

  • データのサイロ化:組織内の部署がそれぞれ他と無関係にデータを収集し保管していると、データの断片化や孤立化につながります。このようなデータサイロは、そのデータに大変な価値を見いだす可能性のある他のチームからアクセスできなくなっているか、見えなくなっています。

  • データ・ガバナンスの欠如:堅牢なデータ・ガバナンス・フレームワークが整っていない組織は、データをエコシステム全体で効果的に管理し追跡するのに苦慮することがあります。こうなると、データが整理されず、失われ、使えなくなります。

  • レガシーシステム:組織がソフトウェアやハードウェアをアップグレードすると、古いシステムは廃止されるか関連性が低くなります。こうしたレガシーシステムに保管されているデータは、組織の最新の分析ツールと統合できないと、ダークになります。

  • 不完全なデータ統合:データ統合プロセスが不完全か非効率的であると、結果的にデータのギャップが生じるか一貫性がなくなります。そうなれば、特定のデータ・セットにアクセスできないか、他のデータ・ソースに正しくリンクされないままになります。

  • ビジネスの優先順位の変化:ビジネスの優先順位が進化すると、特定のデータセットは関連性が薄れたり中心から外れたりすることがあります。かつては積極的に利用されていたデータも、組織の目的がシフトすると利用されなくなってダークになることがあります。

  • 限られたリソースとリテラシー:組織のリソースが限られていると、データ分析よりもデータ収集や保管が優先されることがあります。また、従業員のデータ・リテラシーが不十分だと、価値あるデータを見つけて活用することが妨げられます。

  • データ品質の問題:不正確なデータや不完全なデータなど、データ品質が低いと、データが軽視あるいは無視されることがあります。信頼性が低いことがわかったデータは利用される確率が低くなり、事実上ダークとなります。

  • 規制遵守目的:多くのコンプライアンスやガバナンスの基準により、組織には機密データの保管期間についての厳格な規制が適用されます。どの機密データを破棄すべきかを追跡できていないため、強制期間を過ぎても長きにわたって保管することになりがちなのです。

  • ROT(Redundant, Obsolete, Trivial)データ:ROTは、従業員が同じ情報のコピーを複数保存したり、古くなった情報や組織の目標達成に役立たない余計な情報を保存したりすることで発生します。
ダーク・データのタイプ

ダーク・データのタイプ

タイムリーかつ完全なデータ分析イニシアチブでの発見可能性という点で、ダーク・データは、構造化データかも知れませんし、非構造化データかも知れませんし、半構造化データかも知れません。

構造化データとは、明確に定義されているスプレッドシートまたはデータベース・フィールドに追加されてから保管されている情報です。

サーバーログファイル、モノのインターネット(IoT)センサーデータ、カスタマー・リレーションシップ管理(CRM)データベース、エンタープライズ・リソース・プランニング(ERP)システムは、構造化データ・ソースから作成されたダーク・データの例です。

機密データのほとんどは、電子化されている銀行取引明細書、医療記録、暗号化されている顧客データのように、通常は構造化された形式を取っていますが、権限の問題により、表示やカテゴリー分けがしにくくなっています。

構造化データとは異なり、非構造化データに入るのは、変換、成文化、階層化、構造化をしないと、データベースやスプレッドシートに整理して分析することができない情報です。

非構造化データ・ソースから作成されたダーク・データの例として挙げられるのは、電子メール通信、PDF、テキスト文書、ソーシャルメディアへの投稿、コールセンターの記録、チャットログ、監視カメラで撮影された映像などです。

半構造化データとは、何らかの情報が定義済みのデータ・フィールドに入っている非構造化データのことです。ダーク・データ検出は構造化データほど簡単ではありませんが、検索対象になり、カタログ化も可能です。

例としては、HTMLコード、請求書、グラフ、テーブル、XMLドキュメントなどが挙げられます。

ダーク・データによるコスト

ダーク・データによるコスト

ダーク・データ保管のコストは甚大になり、ダーク・データ・ストレージそのもににかかる経済的コストをはるかに超えます。直接コストと間接コストには、次のようなものがあります。

データ・ストレージ・コスト

データの保管には、たとえアクティブに使用されていない場合でも、物理であれデジタルであれストレージ・インフラストラクチャーが必要です。これに含まれるのは、サーバー、データセンター、クラウド・ストレージ・ソリューション、バックアップ・システムなどです。エコシステムのデータが増えるほど、必要となるデータ・ストレージ容量も増えるので、インフラストラクチャー・コストの増大につながります。

負債コスト

官公庁・自治体はここ数年来、グローバルなプライバシー法を数多く導入してきています。つまり、すべてのデータに適用されるのです。分析リポジトリーで使用されないままになっているデータにすらもです。

機会コスト

多くの企業は、このデータを活用しないことにより、複数の機会を逸しています。実際には使用できないダーク・データを捨て去ることは、リスクやコストからしても好ましいですが、まずアクセス可能なデータを分析し、使用できそうなものを特定しておくと得します。

非効率コスト

ダークデータを含む大量のデータを管理していると、データの取得と分析のプロセスが遅くなります。従業員が関連情報の検索にかける時間が長くなるので、生産性の低下と人件費の増加につながります。

リスク・コスト

ダーク・データは、不十分なサイバーセキュリティーデータ侵害、コンプライアンス違反、データ損失という点で、リスク要因となります。こういうリスクは結果的に、風評被害や経済的影響をもたらすことがあります。

データ品質の問題とダーク・データ

データ品質の問題とダーク・データ

ダーク・データはデータ品質の問題が原因で作り出されることもあります。

たとえば、音声録音から自動的に文字起こしをしたが、文字起こしに使用されたAIによるミスが生じた、などです。そうした文字起こしを、ある時点で解決すると考えて保持する人もいますが、実際に解決することはありません。

品質の劣ったデータをクリーニングしようとする組織は、問題の原因を見逃してしまうことがあります。データ品質の問題を十分に把握していないと、今後も発生することがないようにするのは不可能です。

そうなると、この状況は周期的に発生します。なぜなら、一度も使用されないままになっているダーク・データを対象にした削除ポリシーを採用することもなく、そのままにしておく組織は、データ品質の問題の増大に寄与しているからです。

幸いなことに、データ品質管理の3つのステップがあります。組織が次のステップを踏まえることは、この問題を軽減する助けとなります。

  1. 「そのまま」の状況を分析して特定する:問題に優先順位を付けるため、まず、現在の問題、既存のデータ基準、ビジネスへの影響をすべて特定します。

  2. 不良データの再発を防ぐ:次に、問題ごとにその根本原因を判断し、リソースを適用して持続可能な方法で問題に取り組み、再発しないようにします。

  3. この過程で頻繁にコミュニケーションを取る:何が起きているのか、チームが何をしているのか、その作業の影響、そしてそうした取り組みがビジネス目標とどうつながっているのかを共有します。
ダーク・データに光を当てる方法

ダーク・データに光を当てる方法

ダーク・データのコストとデータ品質の問題すべてに、良い面があります。Splunk社が言うように、「ダーク・データは組織にとって最大の未開拓リソースの1つかもしれない」のです。3

ダークデータ管理にプロアクティブなアプローチを取る組織は、ダーク・データに光を当てることができます。そうすれば、負債とコストが削減されるだけでなく、チームは隠れたデータから洞察を見つけ出すのに必要なリソースも得られます。

ダーク・データを扱い、それを利用してデータに基づいたより良い意思決定を行う可能性があるとなれば、次のようなベスト・プラクティスに従うとよいです。

サイロを解消する

ダーク・データはしばしば、組織内のサイロが原因で発生します。あるチームが別のチームにとって有用になりうるデータを作成しても、他のチームはそのことを知りません。そうしたサイロを解消すると、そのデータを必要とするチームが利用できるようになります。ただ座っているだけのものから、絶大な価値をもたらすものになるのです。

データ管理を改善する

どのようなデータが組織内に存在するのかを把握することが重要です。この取り組みは、組織内のすべてのデータを分類し、正確なビューを完成させることから始まります。チームはそこから、チームの誰もが必要なものを容易に見つけて使えるようにすることを目標に、データをきちんと整理し始めるのです。

データ・ガバナンス・ポリシーを設定する

データ・ガバナンス・ポリシーの導入は、長期的に課題を改善するのに役立ちます。このポリシーでは、入ってくるすべてのデータがどのようにレビューされるかをカバーして、また何を保持(して整理することでデータ管理の明確さを維持)し、アーカイブし、または破棄するのかについてのガイドラインを明確にするべきです。このポリシーで重要な部分は、どのデータをいつ破棄するのかを厳密に規定することです。データ・ガバナンスを実施し、プラクティスを定期的にレビューすることで、利用されることのないダーク・データの量を最小限に抑えることができます。

MLツールとAIツールを使用してデータを解析する

ダーク・データの発見を支援する機械学習(ML)と人工知能(AI)に、貴重な洞察を含む可能性のあるデータの分析を実行させると、ダーク・データをカテゴリー化するという面倒な作業も実行できます。さらに、機械学習の自動化によって、保管されているデータの機密情報が自動的に編集されるので、データ・プライバシーのコンプライアンス規制を遵守する助けともなります。

関連製品

関連製品

IBM Databand

IBM Databandは、データ・パイプラインとデータ・ウェアハウスに向けたオブザーバビリティー・ソフトウェアです。メタデータの自動収集により、履歴ベースラインが構築され、異常が検知され、トリアージ・アラートが発信されることで、データ品質の問題を修復できます。

Databandはこちら

IBM DataStage

IBM® DataStage®はETLとELTのパターンをサポートしており、オンプレミスにもクラウドにも対応する柔軟でほぼリアルタイムのデータ統合を実現します。

データステージを探索

IBM Knowledge Catalog

IBM® Knowledge CatalogはAI時代を支えるインテリジェントなデータ・カタログで、データと知識資産、そしてその関係へのアクセス、管理、分類、共有を可能にします。

ナレッジカタログを探索する
参考情報

参考情報

データサイエンスとは?

データサイエンスとは何か、それによってどれほどビジネス・インサイトが解き放たれ、デジタル・トランスフォーメーションが加速するか、そしてデータに基づく意思決定も可能になることについて、詳細をご覧ください。

人工知能(AI)とは何か。

AIとは何か、そのさまざまなタイプ、AIの歴史、生成AIによって企業でのAIの導入が劇的に加速したのはなぜなのかについて、詳細をご覧ください。

データ品質の6本柱とデータ改善の方法

高品質データが、十分な情報に基づいた意思決定や、正確な分析の実行や、効果的なストラテジーの策定に不可欠である理由について、詳細をご覧ください。

ダーク・データをどう扱うか

どの企業もダーク・データを蓄積しています。コストのかかる負債も、管理ツールがあると、未開拓の機会に満ちた貴重なリソースに変わることについて、詳細をご覧ください。

IBM API Connectがビジネスにもたらす価値

API Connectは、API開発、ライフサイクル全体の管理、テスト、セキュリティー、コミュニティーとのAPIの共有など、API管理にかかる時間削減に役立ちます。当ツールは、過去の分析に基づいて、API Connectによりチームがこれらのアクティビティーにかける時間が40%削減されるという前提で計算されます。

APIの開発または管理を行う正社員の数:

1100
30100
表示された結果は、API Connectを使用することでAPI開発・管理にかかる時間を40%節約できるなど、一定の仮定に基づいています。このツールの結果は、API Connectをソリューションとして検討するかどうかを判断するための参考資料として提供しています。この結果は、実際のデータや統計モデリングに基づくものではなく、正確でない場合やお客様に適用できない場合があります。実際の結果は、お客様の特定のビジネス状況、使用状況、構成および環境などに基づいて異なります。本ツールによる結果は、お客様が達成する可能性のある潜在的または実際の財務結果、またはその他の利益に関して保証またはお約束するものではございません。実際の利益は、個々のお客様の構成や条件によって異なります。

1年間に削減できる可能性


1年間の推定削減時間

1,152 時間


1年間の推定削減額(単位:米ドル)

$ 80,639


次のステップ

IBM Databandで、問題が起きる前にリスクを検知できるデータ可観測性を今すぐ実現することで、データの健全性における問題の発生をユーザーよりも前に知ることができます。

Databandはこちら デモの予約
脚注

1Gartner Glossary(ibm.com外部へのリンク)、Gartner

2The State of Dark Data」(ibm.com外部へのリンク)、Splunk、2019年

3Dark Data: Discovery, Uses & Benefits of Hidden Data」(ibm.com外部へのリンク)、Splunk、2023年8月3日