Hybrid Data Management

オープン・データレイクハウス・アーキテクチャーとIBM watsonx.dataの革新的な可能性

記事をシェアする:

データの量と種類が爆発的に増加し、関連コストが急上昇していることに議論の余地はありません。また、データサイロの急増は、新たな洞察を引き出すために不可欠なデータの統合と充足化を阻害しています。さらに、規制要件が強化されたことで、データアクセスをデモクラタイズし、アナリティクスやAI(人工知能)の導入を拡大することが難しくなっています。このような厳しい背景から、企業が競争優位のためにAIを活用することへの危機感はかつてないほど高まっています。

オープン・データレイクハウス・ソリューション

これらの課題のいくつかに対処しようとするこれまでの試みは、その期待に応えることができませんでした。そこでオープン・データレイクハウスの登場です。これは汎用的なクラウド・オブジェクト・ストレージ、オープン・データとオープン・テーブルフォーマット、高性能なオープンソースのクエリ・エンジンで構成されています。データレイクハウス・アーキテクチャーは、データレイクの柔軟性、拡張性、コストの優位性と、データウェアハウスのバフォーマンス、機能性、使いやすさを組み合わせ、さまざまなデータ、アナリティクス、AIワークロードに最適な価格とパフォーマンスを提供します。

AIワークロードの拡張を支援するため、IBMは、オープン・データレイクハウス・アーキテクチャー上に構築され、IBM watsonx-Alとデータ・プラットフォーム-の一部となるデータストア、watsonx.dataを発表しました。

アナリティクスの展望とwatsonx.dataの特徴を掘り下げてみましょう。

アナリティクス向けデータリポジトリー市場の展望

現在、データレイクハウスは、オンプレミスであれクラウドであれ、既存のデータストアを置き換えるものではなく、補強するものだと考えられています。レイクハウスは、様々な異なるソースからの新しいデータと、既存のリポジトリーに存在する顧客やトランザクションに関するミッションクリティカルなデータを簡単に組み合わせることができるようにする必要があります。新しい洞察は、新しいデータと既存のデータを組み合わせ、新しい関係を特定することで見出されます。そして、教師あり、教師なし両方の機械学習であるAIは、こうした新たな洞察を大規模に解き放つための最良の、そして時には唯一の方法となります。

アナリティクス向けデータリポジトリー市場の展望

IBMのお客様の多くは、オンプレミスのアナリティクス・アプライアンス、クラウド・データウェアハウス、データレイクなどのアナリティクス・レポジトリーを持っています。1つはオンプレミスから SaaSへの移行、もう1つは独占的な(プロブライエタリーな)テクノロジーよりもオープンソース・テクノロジーの普及と選好です。オープンなデータレイクハウスと、プロブライエタリーなデータウェアハウスとの間のパフォーマンスと機能のギャップが縮まり続ける中、レイクハウスは、ツールの選択肢と最適な価格性能を提供しながら、より多くのワークロードでウェアハウスと競合し始めています。

watsonx.data はデータ・マネジメントにどのような破壊的イノベーションをもたらすのか?

watsonx.dataには真にオープンな相互運用性があります

watsonx.dataは、オープンソースのテクノロジーだけでなく、Linux FoundationがホストするApache IcebergやPrestoのように、オープンソース・プロジェクト・ガバナンスと、多くのユーザーやコントリビューターが属する多様なコミュニティーを背景としたテクノロジーを活用します。

watsonx.dataは多様なクエリーエンジンをサポートしています

PrestoとSparkに始まり、watsonx.dataはビッグデータ探索、データ変換、AIモデルのトレーニングとチューニング、インタラクティブなクエリーまで、幅広いワークロードをカバーします。また、IBM Db2 WarehouseとNetezzaは、Iceberg オープン・テーブルフォーマットをサポートするように強化され、レイクハウスの一部としてシームレスに共存できるようになりました。

watsonx.dataはまさにハイブリッド

SaaSとセルフマネージド・ソフトウェアの展開モデルの両方、あるいはその両方の組み合わせをサポートします。これによりコスト最適化の機会がさらに広がります。

watsonx.dataにはガバナンスと自動化機能が組み込まれています

セキュリティーと規制コンプライアンスを確保しながら、セルフサービスでのアクセスを容易にします。Cloud Pak for DataおよびIBM Knowledge Catalogとの統合により、データフアブリック・アーキテクチャーにシームレスに適合し、自動化されたローカル実行によるー元化されたデータ・ガバナンスを実現します。

watsonx.dataは導入も使用も簡単です

最後に、watsonx.dataは既存のデータリポジトリーに簡単に接続できます。watsonx.aiの基盤モデルを活用し、対話型のユーザー・インターフェイスからデータ探索とエンリッチメントを実行することで、あらゆるユーザーがよりデータ主導で仕事を行えるようになります。

watsonx.dataの活用

IBMのお客様の多くは、アナリティクス・アプライアンスをオンプレミスで使用しており、その一部またはすべてのワークロードをSaaSに移行したいと考えています。最も簡単で費用対効果の高い方法は、当社のクラウド・データウェアハウスの互換性を活用することです。拡張性と回復力のあるオンデマンド・インフラストラクチャーとフルマネージド・サービスはより効果的なため、SaaSソリューションのランレートはオンプレミスのアプライアンスよりも高くなります。そのため、お客様はコスト削減の方法を模索しています。クラウド・データウェアハウスをwatsonx.dataで補強することで、お客様はウェアハウス内の履歴データの一部をIcebergのオープン・テーブルフォーマットに変換または階層化し、既存のクエリーやワークロードをすべて保持することができます。これにより、ストレージのコストが削減されると同時に、レイクハウス内の新しいAIワークロードがデータにアクセスできるようになります。

逆に、ローデータをレイクハウスに取り込み、コスト効率よくクレンジングとエンリッチメントを行い、その後ウェアハウスに昇格させることで、現在のレイクハウス・エンジンのSLAを上回る高パフォーマンスなクエリーを実行することができます。

ウェアハウスを使うかレイクハウスを使うかという意思決定ではありません。最適なアプローチはウエアハウスとレイクハウスを使用することです。理想的なアーキテクチャーは、単一の統合ソリューションですべてのワークロードの価格性能を最適化するマルチエンジン・レイクハウスです。さらに、ハイブリッド・クラウド環境全体で展開モデルを最適化する能力を加えれば、今後数年間に渡る基盤となるデータ・マネジメント・アーキテクチャーが完成します。

最後に、これらの重要なコンセプトのいくつかを例を用いて説明します。レイクハウス・アーキテクチャーは高速道路のようなもので、通行料のかかるところと無料のところがあると想像してみてください。渋滞していて急いでいる場合は、運転時間を短縮するために喜んで通行料を支払います。これは、顧客向けアプリケーションや経営層向けダッシュボードなど、厳格な SLA が設定されたワークロードと考えてください。 しかし、急いでいない場合は、無料の高速道路を利用しお金を節約することができます。これは、パフオーマンスが必ずしも推進要因ではない他のすべてのワークロードと考えてください。データウェアハウスをデフォルトで使用する代わりにレイクハウス エンジンを使用することで、コストを最大 50% 削減できます。

データ・マネジメントの未来はレイクハウス・アーキテクチャーにあると、私と同じように確言されたことと思います。ぜひwatsonx Dayにご参加いただき、新しいwatsonx ソリューションと、それがどのように貴社のAへのI取り組みを最適化できるかを探っていただければと思います。

この記事は英語版ブログ「The disruptive potential of open data lakehouse architectures and IBM watsonx.data」(2023年6月15日公開)を翻訳したものです。


関連情報

IBMのサービスとソリューション

More Hybrid Data Management stories

データ分析者達の教訓 #19- ちゃぶ台返しを受けないため「最初に」現場と握っておく

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

皆さんこんにちはIBM の斉藤です。IBM Data&AIでデータサイエンスTech Salesをしています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、デー ...続きを読む


データ分析者達の教訓 #18- データの向こうにある社会的背景や因果関係を洞察せよ

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

こんにちは。IBM Data&AIでデータサイエンスTech Salesをしている西牧です。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進める上で ...続きを読む


法務・AIリスクのスペシャリスト三保友賀が語る「ダイバーシティー」 | インサイド・PwDA+7(後編)

Data Science and AI, IBM Sustainability Software

日本IBMにて法務、特にAI倫理・リスクのスペシャリストとして、そして同時にLGBTQ+コミュニティー*1やPwDAコミュニティー*2のアライとして積極的に活動している三保友賀さんにお話を伺いました。 前編での法務・AI ...続きを読む