Hybrid Data Management

データレイクハウス戦略でデータウェアハウスを最適化する理由

2023年04月26日

カテゴリー Data Science and AI | Hybrid Data Management | IBM Data and AI

記事をシェアする:

以前のブログで、ビジネス・インテリジェンスのための高性能データ処理で知られるデータウェアハウスは、新しいデータと進化するワークロードのためにすぐに高価になる可能性があることを指摘しました。また、Presto などのビッグデータ・エンジンによって提供されるクエリーとレポートは、高度な分析と複雑な企業データの意思決定をサポートするためにSparkインフラストラクチャー・フレームワークと連携する必要があることを説明しました。そのためには、PrestoとSparkが既存の最新のデータウェアハウス・インフラストラクチャーとシンプルに連携できる必要があります。今回は、データウェアハウスの最適化がデータレイクハウス戦略の重要な鍵となる理由について説明します。

レイクハウス・アーキテクチャーで今日の課題を解決する方法についての記事をお読みください

データウェアハウス最適化の価値

100年以上前に登場して以来、ガソリン・エンジンはほとんど変わっていません。大気汚染防止、空調、パワーステアリングなどの現代の需要に対応するために、時間をかけて適応してきただけです。

同様に、データウェアハウスが存在する限り、リレーショナル・データベース（RDB）はデータウェアハウスの基盤であり続けてきました。RDBは、構造化データおよび半構造化データに関連するデータ・エンジニアリング・タスクや機械学習モデルの構築など、新しいワークロードの需要に対応するように適応されました。

例え話に戻ると、自動車に電力を供給する方法に大きな変化がありました。現在では、ガソリン・エンジン、バッテリー電気自動車 (BEV)、ハイブリッド自動車があります。エネルギー省アルゴンヌ国立研究所の2021年の出版物を参照した2021年8月のフォーブスの記事は、「ハイブリッド電気自動車（プリウスなど）は小型SUVカテゴリーの中で、15年間の1マイルあたりの総走行コストがBEVを上回って最も低かった」と指摘しています。

ハイブリッド車が所有者の初期購入価格と長期にわたるコストのバランスをとるのに役立つのと同じように、企業はデータと分析エコシステムの高い性能と費用対効果のバランスを見つけようとしています。基本的に、データセットを過剰にコピーすることなく、適切な環境で適切なワークロードを実行したいと考えています。

データレイクハウス・アーキテクチャの最適化

幸いなことに、クラウド・プラットフォーム、オープンソース、従来のソフトウェア・ベンダーが混在することにより、ITの状況は変化しつつあります。クラウド・オブジェクト・ストレージの台頭により、データ・ストレージのコストが低下しました。オープンデータファイル形式は、Presto、Spark などの複数のデータ・エンジン間でのデータ共有をサポートするために進化しました。インテリジェントなデータ・キャッシュにより、データレイクハウス・インフラストラクチャーのパフォーマンスが向上しています。

これらすべてのイノベーションはソフトウェア・ベンダーによって採用され、顧客に受け入れられています。では、これは実際的な観点では何を意味するのでしょうか？企業が現在すでに行っていることと何が違うのでしょうか？いくつかのユースケースが役立ちます。ローデータを効果的に使用するには、多くの場合、データウェアハウス内でデータを整理する必要があります。半構造化データをテーブルにロードするには、再フォーマットと変換をする必要があります。またMLプロセスはモデルを構築するために大量の容量を必要とします。

現在、データウェアハウス環境でこれらのワークロードを実行している企業は、付加価値や洞察を得られないエンジニアリング・タスクに高いランレートを支払っています。データ駆動型モデルからの出力のみが、企業が付加価値を引き出すことを可能にします。企業がデータレイクハウス（ibm.com外のサイトへ）でこれらのエンジニアリング・タスクを低いランレートで実行しつつ、変換されたデータをオープン・フォーマットでレイクハウスとウェアハウスの両方で利用できるようにすることで、低コストの処理で同じアウトプットを提供できるようになります。

データウェアハウスとデータレイクハウス全体を最適化する利点

オープン・フォーマットを使用してデータを共有することで、データウェアハウスとデータレイクハウス全体のワークロードを最適化すると、コストと複雑さを軽減できます。これにより、企業はデータ戦略とアナリティクスへの投資に対する収益を向上させることができると同時に、より優れたデータ・ガバナンスとセキュリティーの実現にも役立ちます。

また、ハイブリッド車により自動車の所有者が自動車への投資から大きな価値を得ることができるように、データウェアハウスとデータレイクハウス全体でワークロードを最適化することで、企業はデータ分析エコシステムからより大きな価値を得ることができます。

データレイクハウス戦略を使用してデータウェアハウスを最適化し、アナリティクスとAI（人工知能）のワークロードを拡張する方法を見いだしてください。

watsonx.dataについて詳しく見る

この記事は英語版ブログ「Why optimize your warehouse with a data lakehouse strategy」（2023年4月25日公開）を翻訳したものです。

Hybrid Data Management

データレイクハウス戦略でデータウェアハウスを最適化する理由

データウェアハウス最適化の価値

データレイクハウス・アーキテクチャの最適化

データウェアハウスとデータレイクハウス全体を最適化する利点

関連情報

IBMのサービスとソリューション

クラウド・コスト最適化を極める。その原理

サステナブルな未来への地図とルート | EsriとIBMのパートナーシップ

最近の投稿

データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載

IBM Data and AI, IBM Partner Ecosystem

テクノロジーが向かう先とは〜中長期テクノロジー・ロードマップ

IBM Cloud Blog, IBM Data and AI

Hybrid Data Management

データレイクハウス戦略でデータウェアハウスを最適化する理由

データウェアハウス最適化の価値

データレイクハウス・アーキテクチャの最適化

データウェアハウスとデータレイクハウス全体を最適化する利点

関連情報

IBMのサービスとソリューション

クラウド・コスト最適化を極める。その原理

サステナブルな未来への地図とルート | EsriとIBMのパートナーシップ

最近の投稿

データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載

IBM Data and AI, IBM Partner Ecosystem

テクノロジーが向かう先とは〜中長期テクノロジー・ロードマップ

IBM Cloud Blog, IBM Data and AI

フォローする