公開日:2023年11月28日
寄稿者:Phill Powell、Ian Smalley
その名が示すとおり、データ統合とは、さまざまなソースからデータを収集し、単一の場所にまとめることを意味します。データ統合により、ユーザーは単一のアクセスポイントからデータを利用できるようになり、データのインサイト生成が促進されます。
データは、あたかもデータの各単位が構造と目的において同一であるかのように、情報の集合体として単に「データ」と呼ばれることがよくあります。しかし、現実は大きく異なります。組織にとってのデータは、ショッピングカートにリンゴがいっぱい入っているような状態ではありません。むしろ、そのカートは大部分またはほとんどが異なる形式(リンゴ、バナナ、オレンジなど)のデータでいっぱいなのです。
一般的なデータ駆動型組織は、多数のデータ・ソースからのさまざまな種類のデータに依存していますが、先進的な企業はデータ統合ツールを使用して、情報が満載のデータ・ウェアハウスをより効率的に処理し始めています。
情報は未加工データとして始まりますが、企業はその情報にデータ分析を適用し、ビジネス・インテリジェンスに関する洞察を導き出すことができます。現時点では、そのデータ分析をビジネス上の意思決定に効果的に導入できるかどうかは組織の責任ですが、少なくとも企業はより完全かつ即時のデータ・アクセスが可能になり、意思決定に役立つ情報を得ることができるようになります。
リスクを評価し、ビジネスを保護するための対策を講じましょう。
IBMニュースレターの購読
データ統合(データ・インテグレーションとも呼ばれます)には、いくつかの重要な利点があります。
全体的な影響という点では、データ統合の最大の長期的なメリットは、全担当者に関連データを提供することによって、すべての部門と機能にわたって、組織全体の意思決定プロセスを促進できることでしょう。データ統合によって、収集した顧客データ全体を分析し、メトリクスに基づいた行動が決定できるようになるので、企業が顧客とより良い関係を築くのにも役立ちます。
組織の全データを一元的に収集することのもう1つの利点は、社内の非効率性を明らかにするデータ分析への扉を開くことです。社内の非効率性を放置しておくのは、罰金を払っているようなものです。非効率性を軽減することは、コスト削減につながります。また、統合プロセスによってデータ品質が向上するため、情報システムの稼働がより確実になります。
見過ごされがちなことですが、企業が収集したさまざまなデータ資産の中から必要な情報を検索するために、従業員はどれだけの時間を費やしているでしょうか。データ資産を見つけるのが難しい場合、余分な時間がかかります。その対策案がこちら。時間のかかるタスクを削減できるデータ・ウェアハウスなどの1か所の中央リポジトリー内にデータをすべて格納するのです。
データ統合と結び付けられることはあまりないですが、組織のデータが中央レポジトリーにあり、そのデータが処理されクリーニンアアップされていれば、災害復旧関連の緊急対応がよりスムーズに進む可能性が高いことは注目に値するでしょう。
データ統合プロジェクトに使用される手法は増え続けています。
最も重要なデータ統合技術は、ETL(抽出、変換、ロード)として知られる手法です。ETLプロセスは、ETLツールがデータ・ソースから情報を抽出することから始まります。そして、そのデータは標準的な情報フォーマットに変換されます。最後に、選択した宛先にデータがロードされます。
ETL戦略と対になる新たな戦略は、ELT(抽出、ロード、変換)と呼ばれます。ELTステップの再配置は非常に重要です。ELTでは、データは抽出され、一種のステージング領域にロードされます。組織内のさまざまなエンティティーがデータをさまざまな角度から研究し、最終的にデータを変換する間、データはここに残ります。
すべてのデータを集中リポジトリーで一元管理するのが現実的なアプローチです。さまざまなソース・システムからデータ・セットを受け入れるデータ・ウェアハウスを使用することで、より高度なデータ・セキュリティーを実現できます。その後、ETLツールを使用してデータを自動化し、ウェアハウスに統合します。
データ・ウェアハウジングは、データのクリーニングまたは処理に部分的に使用されます。一方、データレイクは、データ処理機能を一切提供しない単なるデータリポジトリーです。データレイクは基本的に、データを最も未加工の状態で保管する場所です。一般的に、企業が不明瞭なデータを保管するのはここです。
すべては規模の問題です。データ・ウェアハウスは、すべてのデータを受け入れて保存するように設計されています。データ・マートとは、より焦点を絞った小規模なデータ・ウェアハウスです。したがって、企業はデータ・ウェアハウスを使用している一方で、社内の部門またはグループは、特定のニーズに特化したデータ・マートを持っている場合があります。
自動化の時代において、手作業によるコーディングは時代遅れに思えます。ただし、単純なデータ統合作業が必要となる状況は数多くあります。このような作業は、データ・エンジニアによる手作業のコーディングによって実行されます。エンジニアが作成するコードは、データを1つの場所に「囲い込む」のに役立ちます。
企業が検討すべきもう1つのデータ統合ソリューションは、データ仮想化です。データは既存のサイロに留まり、各データ・ソースに追加された仮想化レイヤーを通じて表示されます。残念ながら、この方法には拡張性の低下などの制限があります。
ビッグデータの驚異的な成長はテクノロジーの世界を揺るがし続けていますが、今後もこの傾向は続くでしょう。アキュメン・リサーチ・アンド・コンサルティングは、2022年から2030年にかけて、ビッグデータ市場は年率約12.7%で拡大し続けると予測しています(リンク先はibm.com外)。この予測によれば、市場規模は2021年の1,635億ドルから、2030年には4,736億ドルまで急成長するそうです。ビッグデータ市場が拡大するにつれて、データ統合の必要性も高まっています。
データ統合に関連する手動プロセスの自動化も、近年急速に開発が進んでいる分野です。しかし今、データサイエンスの人材は相対的に不足しています。データサイエンスに費やす時間の60%(リンク先はibm.com外)が、統合プロセスにおけるデータのクリーニングと処理に費やされていると推定されています。しかしこうしたプロセスは自動化できますし、自動化する必要があります(ますます促進されるはずです)。
サイバー攻撃やランサムウェア攻撃の脅威が増大し続ける状況を反映し、データ・セキュリティーも引き続き中心的な役割を果たしています。対応策として組織は、パイプラインがデータを移動、保存、分析する際に、より優れたセキュリティーを提供するデータ・パイプラインなどのオプションを選択しています。
同様に、消費者データの大量流出を招いた注目度の高いサイバー攻撃が相次いだため、消費者のプライバシー保護への関心が高まっていることも最近の動向です。プライバシー保護に配慮した消費者とコミュニケーション方法として、いわゆるデータ・クリーン・ルームの導入が増えています。データ・クリーン・ルームでは、組織が通常収集する消費者情報の量を制限するようにインタラクションが構成されています。
ビジネスの優先順位に関係なく、IBMは、データを統合してより多くのことを行えるように設計されたストレージ管理ソフトウェアなど、重要なリソースを安全に保管し保護するために必要なハードウェアおよびソフトウェア・ソリューションを提供します。
データをさらに活用しつつ、自社の二酸化炭素排出量を削減できるとしたら?IBM FlashSystemストレージを使用すると、ストレージのエネルギー効率を高め、ストレージに追加機能を提供しながら、電力使用量を制限できます。
データ保護を超え、真のデータ・レジリエンスを実現するために企業が必要とする機能を手に入れましょう。IBM Storage Defenderは、1次ワークロードと2次ワークロードにわたってエンドツーエンドのデータ・レジリエンスを可視化します。
IBM Storage Scaleのグローバル・データ・プラットフォームを活用することで、エッジからコア、クラウドまで、IBM以外のストレージ・プラットフォームを含むストレージ・オプションのオープン・エコシステムを使用して、組織全体でデータ・サイロを接続できます。