データ管理とは

データ管理とは、組織のデータを取り込み、処理し、保護し、保存することです。データは、ビジネスの成果を向上させるための戦略的な意思決定に利用されます。過去10年間で、ハイブリッドクラウド、人工知能、モノのインターネット（IoT）、およびエッジコンピューティングにおけるさまざまな発展により、ビッグデータが指数関数的に成長し、企業によるデータ管理がますます複雑化してきています。その結果、このようなビッグデータの成長により、データ・サイロ、セキュリティー・リスク、意思決定を妨げるさまざまなボトルネックなどの、大きな課題が出現してきたため、組織内のデータ管理分野は、ますます優先度が高くなっています。チームは、データのクリーンアップ、統合、および保護を目的とした多数のデータ管理ソリューションを使用して、こうした課題に正面から取り組んでいます。そうすることで、リーダーはダッシュボードやその他のデータ視覚化ツールを通じて洞察を収集し、情報に基づいたビジネス上の意思決定が可能になります。また、データ・サイエンス・チームがより複雑な質問を調査できるようにし、概念実証プロジェクト用に機械学習のような、より高度な分析機能を活用できるようにします。ビジネス成果を実現し、改善することに成功した場合、関連するチームと連携して、自動化されたプラクティスを通して、組織全体でこれらの学習の規模を拡大することができます。

データ管理とマスター・データ管理

データ管理は分野全体を指しますが、マスター・データ管理はトランザクション・データ、つまり販売記録に焦点を当てているため、その範囲は、より特定されます。通常、販売データには、顧客、販売者、製品情報が含まれます。このタイプのデータにより、企業は最も成功している製品と市場、および最も価値の高い顧客を特定できます。マスター・データには個人識別情報（PII）が含まれているため、GDPRなどの規制よりも厳しい規制にも準拠しています。

データ管理のタイプ

データ管理分野の範囲は非常に広く、強力なデータ管理戦略は通常、組織全体の戦略と運用を合理化するために次のコンポーネントを実装します。

データ処理：データ管理のライフサイクルのこの段階で、生データは、Web API、モバイル・アプリ、モノのインターネット（IoT）デバイス、フォーム、調査など、さまざまなデータ・ソースから取り込まれます。次に、通常、抽出、変換、ロード（ETL）、または抽出、ロード、変換（ELT）のようなデータ統合技術を介して処理またはロードされます。 ETLは歴史的に、さまざまなデータセット間でデータを統合し、整理するための標準的な方法でしたが、クラウドデータ・プラットフォームの出現とリアルタイム・データの需要の高まりにより、ELTの人気が高まっています。データ統合からは独立して使用される手法で、データは通常、データ処理段階でフィルタリング、マージ、または集約され、ビジネス・インテリジェンス・ダッシュボードから予測機械学習アルゴリズムに至るまで、意図された目的の要件を満たします。

データ・ストレージ：データはデータ処理の前後に保存できますが、データのタイプと目的によって、通常、使用するストレージ・リポジトリーが規定されます。たとえば、データウェアハウスには、定義されたスキーマが必要です。そのスキーマは、ダッシュボード、データの視覚化、その他のビジネス・インテリジェンス・タスクなど、データ出力に対する特定のデータ分析要件に適合しなければなりません。これらのデータ要件は通常、最終的に定義されたデータ・モデルに対して実行するデータ・エンジニアと協力してビジネス・ユーザーによって指示および文書化されます。データウェアハウスの基盤となる構造は、通常リレーショナル・システムとして（つまり、構造化されたデータ形式で）編成され、トランザクション・データベースからデータを調達します。ただし、データレイクなどの他のストレージ・システムは、リレーショナル・システムと非リレーショナル・システムの両方からのデータを組み込んでおり、革新的なデータプロジェクトのサンドボックスになります。データレイクは、構造化データと非構造化データの両方をデータサイエンス・プロジェクトに組み込むことができるため、特にデータ・サイエンティストにメリットをもたらします。

データ・ガバナンス：データ・ガバナンスは、データ資産が組織内で効果的に活用されることを保証する一連の標準とビジネス・プロセスです。これには通常、データ品質、データ・アクセス、ユーザビリティー、データ・セキュリティーに関するプロセスが含まれます。たとえば、データ・ガバナンス評議会は、メタデータがさまざまなデータ・ソース間で一貫して追加されるように、分類法に沿って調整する傾向があります。この分類法は、データ・カタログを介してさらに文書化し、ユーザーがデータにアクセスしやすいようにし、組織全体でのデータの民主化を促進する必要があります。データ・ガバナンス・チームは、データ・アクセスが適切に提供されるようにするための役割と責任を定義するのにも役立ちます。これは、データのプライバシーを維持するために特に重要です。

データ・セキュリティー：データ・セキュリティーは、デジタル情報を不正アクセス、破損、または盗難から保護するためのガードレールを設定します。デジタル・テクノロジーがますます私たちの生活の一部となるにつれて、顧客データがサイバー犯罪者や災害復旧インシデントから保護されることを保証するために、現代のビジネスのセキュリティー・プラクティスがさらに精査されています。データの損失はあらゆるビジネスに壊滅的な打撃を与える可能性があり、特にデータ侵害は、財務とブランドの両方の観点からコスト被害が発生する可能性があります。データ・セキュリティー・チームは、データ・セキュリティー戦略内で暗号化とデータ・マスキングを活用することにより、データをより適切に保護できます。

データ管理システムのデータ・アーキテクチャー

データ処理、データ・ストレージ、データ・ガバナンス、データ・セキュリティーはすべてデータ管理の一部ですが、これらのコンポーネントがうまく機能するかは、企業のデータ・アーキテクチャーまたはテクノロジースタックにかかっています。企業のデータ・インフラストラクチャーは、データを取得、処理、保存、アクセスするためのパイプラインを作成します。これは、こうしたシステムを統合することによって行われます。データ・サービスとAPIは、レガシー・システムからデータをまとめます。データレイク、データウェアハウス、SQLデータベース、アプリは、ビジネス・パフォーマンスの全体像を提供します。

データ管理スペースにおけるこれらの各コンポーネントは、現在、大幅な変更が行われています。たとえば、オンプレミス・システムからクラウド・プラットフォームへの移行は、現在この分野で最も破壊的な変革テクノロジーの1つです。オンプレミス展開とは異なり、クラウドのストレージ・プロバイダーによってユーザーは必要に応じて大規模なクラスターを起動することが可能で、支払いは指定されたストレージに対する料金のみとなります。つまり、数時間と数日でジョブを実行するために追加のコンピュート性能が必要な場合は、追加のコンピュート・ノードを購入することにより、クラウド・プラットフォームで簡単に実現できるのです。

このクラウド・データ・プラットフォームへの移行は、ストリーミング・データ処理の導入も促進しています。 Apache Kafkaのようなツールを使用すると、よりリアルタイムでのデータ処理が可能になり、消費者はトピックにサブスクライブして数秒でデータを受信できるようになります。しかしながら、バッチ処理には、大量のデータをより効率的に処理できるというメリットがあります。バッチ処理は、日次、週次、月次などの設定されたスケジュールに従いますが、通常はリアルタイムのデータを必要としないビジネス・パフォーマンス・ダッシュボードに最適です。

変化はこの空間で加速し続ける一方です。最近では、これらのデータ・システム管理の複雑さをサポートするデータ・ファブリックが登場しました。データ・ファブリックは、インテリジェントで自動化されたシステムを活用して、さまざまなデータ・パイプラインとクラウド環境のエンドツーエンドの統合を促進します。このような新しいテクノロジーが開発されるにつれて、ビジネス・リーダーは、機能間でデータを統合するため、ビジネス・パフォーマンスについてより包括的なビューを取得することが期待されます。人的資源、マーケティング、販売、サプライ・チェーンなどにわたるデータの統合によって、リーダーは顧客に対する理解を深められます。

データ管理のメリット

組織は、データ管理イニシアチブを立ち上げ、維持する際に、多くのメリットを体験します。

データ・サイロの削減：すべてではないにしても、ほとんどの企業は組織内でデータ・サイロを体験しています。データ・ファブリックやデータレイクなどのさまざまなデータ管理ツールとフレームワークは、データ・サイロとデータ所有者への依存を排除するのに役立ちます。たとえば、データ・ファブリックは、人材、マーケティング、販売などの機能にわたって、異種混合のデータセット全体における潜在的な統合を明らかにするのを支援します。一方、データレイクは、これらの同じ機能から生データを取り込み、依存関係を削除し、特定のデータセットに対する単一の所有者を排除します。

コンプライアンスとセキュリティーの向上：ガバナンス評議会は、政府の規制やポリシーの違反が原因で発生するおそれのある罰金や悪評から、ビジネスを保護するためのガードレールの設定を支援します。ここでつまずくと、ブランドと財務の両方の観点からコストがかかる可能性があります。

ワンランク上の顧客体験：メリットは直ちに目に見えるものではありませんが、優れた概念実証によって全体的な顧客体験の向上が可能となるため、より包括的な分析を通じて、チームがカスタマー・ジャーニーに対して、理解を深めてパーソナライズできるようになります。

スケーラビリティ：データ管理はビジネスの拡大に役立ちますが、主に導入されているテクノロジーとプロセスに依存します。たとえば、クラウド・プラットフォームは柔軟性を高め、データ所有者は必要に応じて計算能力をスケールアップまたはスケールダウンできます。さらに、ガバナンス評議会は、企業の規模が大きくなるにつれて、定義された分類法が確実に導入されるように支援します。

ソリューション

データウェアハウス

運用ソリューションからデータウェアハウス・ソリューションにまで広がるDb2 IBM®ファミリーの製品の詳細をご覧ください。

クラウド・データ・プラットフォーム

クラウドネイティブのIBM Cloud Pak® for DataプラットフォームにDb2をデプロイすることの価値についてご覧ください。

オープンソースの統合

MongoDB、EDB Postgres、DataStax、ClouderaとのIBMのオープンソース・パートナーシップをご覧ください。

参考情報

レポートを読む

無料の451 Researchレポートを読んで、データ、分析、AIの統合プラットフォーム上でのデータ管理が洞察までの時間を短縮する方法についてご覧ください。

アナリスト・レポートを読む

AI中心のデータ・アーキテクチャーの基盤として、データ品質、アクセシビリティー、セキュリティーを確保するためのベストプラクティスについてご説明します (4.5 MB)

データ管理とIBM

IBMは、Red Hat® OpenShift®のオープン・プラットフォーム上に構築されており、自動コンテナ化により、データの収集と管理をよりシンプルかつスマートにするAIを活用したハイブリッド・データ管理ソリューションを提供します。