データ ウェアハウス システムを使用すると、組織は標準のデータベースでは不可能な方法で、大量のデータ (ペタバイト単位) に対して強力な分析を実行できます。
データウェアハウジングシステムは、30年以上にわたってビジネスインテリジェンス(BI)ソリューションの一部であったが、新しいデータタイプやデータホスティング手法の出現により、近年進化を遂げている。 従来、データウェアハウスはオンプレミス(多くの場合はメインフレームコンピュータ)でホストされていました。その機能は、他のソースからのデータの抽出、データのクレンジングと準備、リレーショナルデータベースへのデータのロードと管理に重点を置いていました。 最近では、データウェアハウスは専用アプライアンスやクラウド上でホストされることもあり、ほとんどのデータウェアハウスには分析機能やデータの可視化・表示ツールが追加されている。
チームが責任あるAIを加速するのに役立つ構成要素とベスト・プラクティスについて説明します。
Prestoに電子書籍を登録する
一般的に、データウェアハウスは3層構造になっている:
最下層: 最下層は、抽出 、変換、ロード (ETL) と呼ばれるプロセスまたは抽出、読み込み、変換 (ELT) と呼ばれるプロセスを通じて、複数のデータ ソースからデータを収集、クレンジング、変換するデータ ウェアハウス サーバー (通常はリレーショナル データベース システム) で構成されます。 ETLを使用するほとんどの組織では、プロセスは自動化に依存し、効率的で、明確に定義され、継続的で、バッチ駆動である。
中間層: 中間層は、高速なクエリ速度を可能にする OLAP (オンライン分析処理) サーバーで構成されます。 この層では、ROLAP、MOLAP、および HOLAP と呼ばれる 3 種類の OLAP モデルを使用できます。 使用されるOLAPモデルのタイプは、存在するデータベースシステムのタイプに依存する。
最上位層:最上位層は、ある種のフロントエンド・ユーザー・インターフェースやレポーティング・ツールで代表され、エンド・ユーザーがビジネス・データに対してアドホックなデータ分析を行うことを可能にする。
ほとんどのデータ ウェアハウスは、オンプレミスまたはクラウドでリレーショナル データベース システムを中心に構築され、データはそこで保存および処理されます。 その他のコンポーネントには、メタデータ管理システムと、ウェアハウスが組織ソースからデータを取得し、分析および視覚化ツールへのアクセスを提供できるようにする API 接続レイヤーが含まれます。
一般的なデータ ウェアハウスには、中央データベース、ETL ツール、メタデータ、アクセス ツールという 4 つの主要コンポーネントがあります。 これらのコンポーネントはすべて速度を重視して設計されているため、結果を迅速に取得し、その場でデータを分析できます。
データウェアハウスは何十年も前から存在しています。 1980 年代に誕生し、データ分析を最適化する必要性に対処しました。 企業のビジネス アプリケーションが成長し、より多くのデータを生成/保存し始めると、データの管理と分析の両方ができるデータ ウェアハウス システムが必要になりました。 大まかに言うと、データベース管理者は運用システムからデータを取得し、データ ウェアハウスにロードする前に、変換によってデータにスキーマを追加できます。
データ ウェアハウス アーキテクチャが進化し、人気が高まるにつれて、企業内のより多くの人がデータ ウェアハウス アーキテクチャを使用してデータにアクセスするようになり、データ ウェアハウスによって構造化データを使用することが容易になりました。 ここでメタデータが重要になります。レポートとダッシュボードが主要な使用例となり、SQL (構造化クエリ言語) がそのデータを操作するための事実上の方法になりました。
各コンポーネントを詳しく見てみましょう。
データベース アナリストがデータ ソースからデータ ウェアハウスにデータを移動する場合、これが使用されるプロセスです。 つまり、ETL はデータを使用可能な形式に変換し、データ ウェアハウスに入ると分析/クエリなどができるようにします。
メタデータはデータに関するデータです。 基本的に、システムに保存され、検索可能にするすべてのデータを記述します。 メタデータの例としては、著者、記事の日付や場所、ファイルの作成日、ファイルのサイズなどが挙げられます。スプレッドシートの列のタイトルのようなものだと考えてください。 メタデータを使用すると、データを整理して使いやすくし、分析してダッシュボードやレポートを作成できます。
SQLは、データをクエリするための事実上の標準言語です。 これは、アナリストがデータ ウェアハウスに保存されているデータから洞察を引き出すために使用する言語です。 通常、データ ウェアハウスには、コンピューティングと緊密に結合された独自の SQL クエリ処理テクノロジが搭載されています。 これにより、分析の際に非常に高いパフォーマンスを実現できます。 ただし、注意すべき点が 1 つあります。データ ウェアハウスのコストは、データおよび SQL コンピューティング リソースが増えるほど高額になる可能性があるということです。
データ層は、ユーザーが実際にデータにアクセスできるようにするアクセス層です。 通常、ここにデータ マートが存在します。 このレイヤーは、アクセス権を誰に付与するかに応じてデータのセグメントを分割するため、組織全体で非常にきめ細かいアクセスを許可できます。 たとえば、営業チームに人事チームのデータへのアクセスを許可したくない場合や、その逆の場合も同様です。
これは、組織のすべてのデータに対してきめ細かいアクセス ポリシーとセキュリティ ポリシーを提供できる必要があるという点で、データ層に関連しています。 通常、データ ウェアハウスには非常に優れたデータ ガバナンスとセキュリティ機能が組み込まれているため、これを組み込むために多くのカスタム データ エンジニアリング作業を行う必要はありません。 ウェアハウスにデータを追加したり、会社が成長したりするにつれて、ガバナンスとセキュリティを計画することが重要です。
アクセスツールはデータウェアハウスの外部にありますが、ビジネスユーザーにとって使いやすいフロントエンドと見なすことができます。 ここには、データアナリストやビジネスユーザーがデータを操作したり、洞察を抽出したり、他の企業が使用できる視覚化を作成したりするために使用するレポートおよび視覚化ツールがあります。 これらのツールの例としては、Tableau、Looker、Qlikなどがあります。
OLAP (オンライン分析処理) は、データ ウェアハウスなどの統合された一元的なデータ ストアからの大量のデータに対して、高速に多次元分析を実行するためのソフトウェアです。 OLTP (オンライン トランザクション処理) は、通常はインターネット経由で、多数の人による大量のデータベース トランザクションのリアルタイム実行を可能にします。 OLAPとOLTPの間の主な違いは、名前にあります。OLAPは本質的に分析を意味し、OLTPはトランザクションを意味します。
OLAP ツールは、履歴データとトランザクション データの両方を含むデータ ウェアハウス内のデータを多次元分析するために設計されています。 OLAPの一般的な用途には、データ・マイニングやその他のビジネス・インテリジェンス・アプリケーション、複雑な解析計算、予測シナリオのほか、財務分析、予算編成、予測プランニングのようなビジネス・レポート作成機能があります。
OLTPは、最近のトランザクションをできるだけ迅速かつ正確に処理してトランザクション指向のアプリケーションをサポートするように設計されています。OLTPの一般的な用途には、ATM、電子商取引ソフトウェア、クレジット・カード決済システム、オンライン予約、予約システム、記録管理ツールなどがあります。
この2つのアプローチの違いについて詳しくは、「OLAP vs. OLTP: What's the Difference?」を参照してください。
スキーマは、データベースまたはデータ ウェアハウス内でデータを編成する方法です。 スキーマ構造には、スター スキーマとスノーフレーク スキーマという 2 つの主なタイプがあり、データ モデルの設計に影響を与えます。
スター・スキーマ: このスキーマは、複数の非正規化ディメンジョン・テーブルに結合可能な 1 つのファクト・テーブルで構成されます。 これは最も単純で最も一般的なタイプのスキーマと考えられており、ユーザーはクエリ時の高速化の恩恵を受けます。
スノーフレークスキーマ:スノーフレークスキーマは、それほど広く採用されていませんが、データウェアハウスの別の組織構造です。 この場合、ファクト テーブルは多数の正規化されたディメンション テーブルに接続され、これらのディメンション テーブルには子テーブルがあります。 スノーフレークスキーマのユーザーは、その低レベルのデータ冗長性の恩恵を受けますが、クエリのパフォーマンスにコストがかかります。
データウェアハウス、データベース、データレイク、データマートはすべて、同じ意味で使用されることが多い用語です。 用語は似ているが、重要な違いがある:
データ ウェアハウスは、データパイプラインを使用して、複数のソースから生データを中央リポジトリに収集します。この中央リポジトリは、データ分析用に設計された事前定義されたスキーマを使用して構造化されています。 データ レイクは、事前定義されたスキーマのないデータ ウェアハウスです。 その結果、データ ウェアハウスよりも多くの種類の分析が可能になります。 データ レイクは通常、Apache Hadoop などのビッグ データ プラットフォーム上に構築されます。
データ マートは、特定の事業分野または部門に固有のデータを含むデータ ウェアハウスのサブセットです。 データ マートには、より小さなデータのサブセットが含まれているため、部門や事業部門は、より広範なデータ ウェアハウスのデータ セットを操作するときに、より焦点を絞った洞察を可能な限り迅速に発見できます。
データベースは、分析ではなく、主に高速なクエリとトランザクション処理を目的として構築されています。 通常、データベースは特定のアプリケーションに特化したデータ ストアとして機能しますが、データ ウェアハウスは組織内の任意の数 (またはすべて) のアプリケーションからのデータを保存します。
データベースはリアルタイムデータの更新に重点を置いていますが、データウェアハウスはより広い範囲を持ち、予測分析、機械学習、およびその他の高度なタイプの分析のために現在および過去のデータを取得します。
クラウド データ ウェアハウスは、クラウドで実行するために特別に構築されたデータ ウェアハウスであり、マネージド サービスとして顧客に提供されます。 より多くの企業がクラウド コンピューティング サービスを利用し、オンプレミスのデータ センターの設置面積を削減しようとするにつれて、過去 5 ~ 7 年間でクラウドベースのデータ ウェアハウスの人気が高まっています。
クラウド データ ウェアハウスでは、物理的なデータ ウェアハウス インフラストラクチャがクラウド会社によって管理されます。つまり、顧客はハードウェアやソフトウェアに先行投資する必要がなく、データ ウェアハウス ソリューションを管理または保守する必要もありません。
企業はデータ ウェアハウス ライセンスを購入し、自社のオンプレミス インフラストラクチャにデータ ウェアハウスを展開できます。 これは通常、クラウド データ ウェアハウス サービスよりも高価ですが、データをより詳細に制御したい場合や、厳格なセキュリティまたはデータ プライバシーの標準や規制に準拠する必要がある政府機関、金融機関、その他の組織にとっては、より良い選択となる可能性があります。
データウェアハウスアプライアンスは、ハードウェアとソフトウェア(CPU、ストレージ、オペレーティングシステム、データウェアハウスソフトウェア)があらかじめ統合されたバンドルであり、企業はネットワークに接続してそのまま使用を開始できます。 データウェアハウスアプライアンスは、初期費用、導入速度、スケーラビリティの容易さ、データ管理制御の点で、クラウドとオンプレミスの実装の中間に位置します。
データウェアハウスは、次の基盤を提供します。
企業がより多くのデータを保管し始め、より高度な分析と幅広いデータが必要になると、データ ウェアハウスは高価になり、柔軟性も低下します。 非構造化データまたは半構造化データを分析する場合、データ ウェアハウスは機能しません。 上記の問題に対処するために、データ レイクハウスアーキテクチャに移行する企業が増えています。 オープン データ レイクハウスを使用すると、オープンで柔軟なアーキテクチャであらゆる種類のデータに対してウェアハウス ワークロードを実行できます。 このデータは、ビジネス上の洞察を得るためにデータを研究するデータ サイエンティストやエンジニアも使用できます。 データ レイクハウスは、密結合されたシステムの代わりにはるかに柔軟で、写真、ビデオ、IoT データなどの非構造化データおよび半構造化データも管理できます。
データ レイクハウスは、レポートやダッシュボードのワークロードに加えて、データ サイエンス、ML、AI のワークロードもサポートできます。 データ ウェアハウス アーキテクチャからのアップグレードを検討している場合は、オープン データ レイクハウスの開発が最適です。
IBM データ ウェアハウス ソリューションは、機械学習を含む分析ワークロードの構造化データと非構造化データをサポートするパフォーマンスと柔軟性を提供します。
高性能なアナリティクスとAIのために構築された、フルマネージドで弾力性のあるクラウドデータウェアハウスの機能をご覧ください。
IBM Cloud Pak® for Data は、オンプレミスとクラウド内のビジネス サイロにわたるデータ分析、組織化、管理のための統合ソフトウェア コンポーネントのモジュール式セットです。
AI は、エンタープライズ データ ウェアハウスとデータ マートによって克服できる多くの課題を引き起こす可能性があります。 このようなソリューションが提供できる合計価値を評価する方法をご覧ください。
エンタープライズデータウェアハウスを選択するには、AIの影響、ウェアハウスの主な差別化要因、さまざまな導入モデルを考慮する必要があります。 この電子ブックは、まさにそれを行うのに役立ちます。
データドリブンな組織を構築し、ビジネスの優位性を高めるためのガイド。