データ・メッシュとは

データ・メッシュとは

データ・メッシュは、マーケティング、販売、カスタマー・サービスなどの特定の部門ごとにデータを整理し、特定のデータ・セットの作成者にさらなる所有権を与える分散型データ・アーキテクチャーです。

プロデューサーが必要な部門のデータを理解することで、ドキュメント、品質、アクセスに重点を置いたデータ・ガバナンス・ポリシーを設定できるようになります。これにより、組織全体でのセルフサービス使用が可能になります。このフェデレーション・アプローチにより、集中型のモノリシック・システムに関連する多くの運用上のボトルネックが解消されますが、必ずしもデータレイクやデータウェアハウスなどの従来のストレージ・システムを使用できないということではありません。単に、データの使用が単一の集中型データ・プラットフォームから複数の分散型データ・リポジトリーに移行したことを意味します。

注目すべきは、データ・メッシュは、データ管理の目標を拡張して達成するために、クラウドネイティブおよびクラウド・プラットフォーム・テクノロジーの採用を促進するということです。この概念は、この分野での使用法を視聴者に理解してもらうために、マイクロサービスと比較されることがよくあります。この分散型アーキテクチャーは、組織全体のデータに対して拡大しつつあるニーズに特に役立つため、データ・メッシュはすべての種類のビジネスに適しているわけではありません。つまり、小規模なビジネスでは、企業データが大規模な組織ほど複雑ではないため、データ・メッシュのメリットを享受できない可能性があります。

ITコンサルタント会社のThoughtWorks社の技術ディレクターであるZhamak Dehghani氏は、データのアクセシビリティーや整理など、集中型のモノリシック・データ構造に固有の課題に対するソリューションとしてデータ・メッシュの概念を推進したことで知られています。新型コロナウイルスの感染拡大は文化的変化を促進し、データに関する組織の複雑さを軽減する取り組みの一環として、その導入がさらに促進されました。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ・メッシュの仕組み

データ・メッシュは、企業がデータについて考える方法の文化的変化を伴います。データはプロセスの副産物としてではなく製品そのものとなり、データ作成者はデータ製品の所有者となります。従来、集中型のインフラストラクチャー・チームがドメイン間でデータの所有権を保持していましたが、データ・メッシュ・モデルでの製品思考の焦点により、この所有権は、主題の専門家であるプロデューサーに移行しました。主要なデータ・コンシューマーと、部門ごとの運用データや分析データをどのように活用しているかを理解しているため、最大の利益を念頭に置いてAPIを設計できます。

このドメイン駆動型設計では、データ・プロデューサーがセマンティック定義の文書化、メタデータのカタログ化、アクセス許可と使用に関するポリシーの設定の責任を負うことになりますが、中央データ・ガバナンス・チームは依然としてデータに関するこれらの標準と手順を適用します。さらに、データ・メッシュ・アーキテクチャーでは関連部門がETL データ・パイプラインを担当することになりますが、中央で指揮を取るデータ・エンジニアリング・チームの必要性がなくなるわけではありませんが、その主な責任は、保存されるデータ製品に最適なデータ・インフラストラクチャー・ソリューションを決定することにシフトします。

マイクロサービス・アーキテクチャーが軽量のサービスを結合してビジネス向けまたは消費者向けアプリケーションに機能を提供するのと同様に、データ・メッシュは部門を使用してデータ・パラメーターを設定し、組織のすべてのユーザーがアクセスできる製品として扱えるようにします。このように、データ・メッシュにより、より柔軟なデータ統合と相互運用可能な機能が実現し、ユーザーは複数の部門のデータにすぐにアクセスし、ビジネス分析、データサイエンス実験などに活用できるようになります。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

データ・メッシュとデータレイク

前述のように、データ・メッシュは分散型データ・アーキテクチャーで、データがドメインごとに整理され、組織全体のユーザーがアクセスしやすくなります。データレイクは低コストのストレージ環境であり、通常、ビジネス分析、機械学習、その他の幅広いアプリケーション用のペタバイト単位の構造化データ、半構造化データ、非構造化データが格納されます。データ・メッシュはデータに対するアーキテクチャー上のアプローチであり、データレイクはその一部となることができます。ただし、中央データレイクは、まだ目的が定義されていないデータを取り込むために使用されることが多いため、データの投棄場所として使用されるのが一般的です。その結果、洞察に富んだ学習を提供するための適切なデータ品質とデータ・ガバナンスのプラクティスが欠如したデータレイク、すなわち、データ・スワンプとなる可能性があります。

データ・メッシュとデータ・ファブリック

データ・ファブリックは、データ・プロバイダーとデータ・コンシューマー間のデータ・バリューチェーンにおけるデータ統合、データ・エンジニアリング、ガバナンスのオートメーションに重点を置いたアーキテクチャーの1つのコンセプトです。データ・ファブリックは、「アクティブ・メタデータ」という概念に基づいており、ナレッジ・グラフ、セマンティクス、人工知能／機械学習テクノロジーを使用して、さまざまな種類のメタデータ（システム・ログ、ソーシャルなど）のパターンを検出します。次に、この洞察を適用して、データ・バリュー・チェーンを自動化および調整します。例えば、データ・コンシューマーがデータ製品を見つけて、そのデータ製品を自動的にプロビジョニングできるようになります。データ・ファブリックは、相互に排他的ではなく、データ・メッシュを補完するものです。実際、データ・ファブリックは、データ製品をより速く作成し、グローバル・ガバナンスを適用して複数のデータ製品の組み合わせをより簡単にオーケストレーションするなど、データ・メッシュの重要な部分を自動化できるため、データ・メッシュをより優れたものにします。

データ・メッシュのメリット

データの民主化：データ・メッシュ・アーキテクチャーにより、複数のデータ・ソースからのセルフサービス・アプリケーションが容易になり、データサイエンティスト、データ・エンジニア、開発者などの担当のサイロを超えたデータにアクセスできるようになります。このドメイン駆動設計により、データの検出とアクセスが容易になるだけではありません。データ・サイロと運用上のボトルネックが排除され、意思決定が迅速化され、技術ユーザーが自分のスキルセットをより有効に活用できるタスクを優先できるようになります。

コスト効率：この分散型アーキテクチャーは、バッチ・データ処理から離れ、代わりにクラウド・データ・プラットフォームとストリーミング・パイプラインの採用を促進して、リアルタイムでデータを収集します。クラウド・ストレージを利用すると、データ・チームは必要に応じて大規模なクラスターを立ち上げることができ、指定したストレージに対してのみ料金を支払うことで、コストを最適化することができます。つまり、数日ではなく数時間で実行するジョブのために追加のコンピューティング能力が必要な場合も、クラウド・データ・プラットフォームであれば、コンピューティング・ノードの費用を追加で支払うことで簡単に実現できます。これにより、ストレージ・コストの可視性を向上させ、エンジニアリング・チームによる予算とリソースの割り当てを改善することが可能になります。

技術的負荷の軽減：中央型データ・インフラストラクチャーは複雑で、システムを維持するために他部署とのコラボレーションが必要となるため、技術的負荷が増加します。また、リポジトリー内にデータが蓄積されるにつれて、システム全体の速度も低下し始めます。部門ごとの所有権でデータ・パイプラインを分散することで、データ・チームはデータ・コンシューマーの要求をより適切に満たし、ストレージ・システムへの技術的負荷を軽減できます。また、インターフェース用のAPIを提供することでデータへのアクセシビリティーを高め、データ・アクセスへのリクエストの全体的な量を削減することもできます。

相互運用性：データ・メッシュ・モデルでは、データ所有者は部門に依存しないデータ・フィールドを標準化する方法について事前に合意し、相互運用性を促進します。このように、ある部門がそれぞれのデータ・セットを構築するときに、関連ルールを適用して、部門間でのデータ・リンクを迅速かつ簡単に実現します。一般的に標準化されるフィールドには、フィールド・タイプ、メタデータ、スキーマ・フラグなどがあります。部門間の一貫性により、データ・コンシューマーはAPIとのインターフェースをより簡単に実現し、ビジネス・ニーズにより適切に対応するアプリケーションを開発できるようになります。

セキュリティーとコンプライアンス：データ・メッシュ・アーキテクチャーは、ドメインに依存しないデータに対するデータ標準の適用と機密データに対するアクセス制御の強化に役立つため、ガバナンスを強化します。これにより、組織はHIPPA制限などの政府規制に確実に準拠できます。また、このデータ・エコシステムの構造は、データ監査を可能にすることで、こうした規制準拠をサポートします。データ・メッシュ・アーキテクチャーでデータをログに記録およびトレースすると、システムに可観測性が組み込まれるため、監査人は特定のデータにアクセスしているユーザーとそのアクセス頻度を把握できます。

データ・メッシュのユースケース

分散データ・メッシュ・アーキテクチャーはまだ広く採用されていませんが、一般的なビッグデータのユースケースの拡張性目標を達成を後押ししています。例えば、次のようなユースケースです。

ビジネス・インテリジェンス・ダッシュボード：チームが新しい取り組みに着手するときは、一般的にこれらのプロジェクトのパフォーマンスを把握するためにカスタマイズされたデータ・ビューが必要になります。データ・メッシュ・アーキテクチャーは、データ利用者がデータをより利用しやすくすることで、柔軟性とカスタマイズ性に対するこうしたニーズに対応できるようにします。
自動バーチャル・アシスタント：企業では、コールセンターやカスタマー・サービス・チームをサポートするためにチャットボットがよく使用されます。よくある質問はさまざまなデータセットに関係する可能性があるため、分散型データ・アーキテクチャーにより、これらのバーチャル・エージェント・システムでより多くのデータ資産を利用できるようになります。
顧客体験：顧客データにより、企業はユーザーをより深く理解し、よりパーソナライズされた体験を提供できるようになります。こうしたユースケース、マーケティングからヘルスケアまで、さまざまな業界で広く採用されています。
機械学習プロジェクト：データを部門に依存させずに、標準化することで、データサイエンティストはさまざまなデータ・ソースからのデータをより簡単につなぎ合わせることができ、データ処理にかかる時間を短縮できます。そして、本番環境に移行するまでに必要なモデルの数を減らして開発を加速し、自動化目標を達成することが可能になります。

データ・リーダー向けAI対応データ関連ガイド

データ・リーダーがこれらの課題を克服し、信頼できるデータ基盤の基礎を確立し、組織のデータをAIに対応させるために実行できる実行可能な手順について学びましょう。

参考情報

AIエージェントはデータに基づいて実行されます。準備はできていますか?

データは競争上の優位性です。この短時間のWebセミナーでは、安全な方法でAIを解き放ち、測定可能なROIを達成する方法を紹介します。

IDC MarketScape：ワールドワイド・データ・インテリジェンス・プラットフォーム・ソフトウェア2024年度ベンダー・アセスメント

データ・インテリジェンス・ソフトウェア市場におけるベンダーの評価と位置付けを示すこのIDC評価レポートで、IBMがリーダーに選出された理由をご覧ください。

お客様のデータは生成AIに向けた準備ができていますか

当社の「Data Matters」ハブで、統合などのデータとAIの課題に取り組む方法を学びましょう。

データ・プロダクトの共有を可能にすることでデータの価値を解き放つ

ビジネスを成功に導く社内データ共有の効果を最大限に高めるための主要なベスト・プラクティスを学びます。

データ・インテリジェンス：暗闇からデータを開放しましょう

データ・インテリジェンスがガバナンス、品質、リネージュ、共有を統合して、未加工データを信頼できる洞察に変える方法をご覧ください。

データから洞察へ：データ・インテリジェンスによるジャーニーの計画

データ・インテリジェンスから実行可能な洞察を導き出すための変革的なプロセスとベスト・プラクティスをご覧ください。