Hybrid Data Management
オープン・データレイクハウス・アーキテクチャーとIBM watsonx.dataの革新的な可能性
2023年06月16日
カテゴリー Data Science and AI | Hybrid Data Management | IBM Data and AI
記事をシェアする:
データの量と種類が爆発的に増加し、関連コストが急上昇していることに議論の余地はありません。また、データサイロの急増は、新たな洞察を引き出すために不可欠なデータの統合と充足化を阻害しています。さらに、規制要件が強化されたことで、データアクセスをデモクラタイズし、アナリティクスやAI(人工知能)の導入を拡大することが難しくなっています。このような厳しい背景から、企業が競争優位のためにAIを活用することへの危機感はかつてないほど高まっています。
オープン・データレイクハウス・ソリューション
これらの課題のいくつかに対処しようとするこれまでの試みは、その期待に応えることができませんでした。そこでオープン・データレイクハウスの登場です。これは汎用的なクラウド・オブジェクト・ストレージ、オープン・データとオープン・テーブルフォーマット、高性能なオープンソースのクエリ・エンジンで構成されています。データレイクハウス・アーキテクチャーは、データレイクの柔軟性、拡張性、コストの優位性と、データウェアハウスのバフォーマンス、機能性、使いやすさを組み合わせ、さまざまなデータ、アナリティクス、AIワークロードに最適な価格とパフォーマンスを提供します。
AIワークロードの拡張を支援するため、IBMは、オープン・データレイクハウス・アーキテクチャー上に構築され、IBM watsonx-Alとデータ・プラットフォーム-の一部となるデータストア、watsonx.dataを発表しました。
アナリティクスの展望とwatsonx.dataの特徴を掘り下げてみましょう。
watsonx.dataのインタラクティブ・ツアーをご覧ください
アナリティクス向けデータリポジトリー市場の展望
現在、データレイクハウスは、オンプレミスであれクラウドであれ、既存のデータストアを置き換えるものではなく、補強するものだと考えられています。レイクハウスは、様々な異なるソースからの新しいデータと、既存のリポジトリーに存在する顧客やトランザクションに関するミッションクリティカルなデータを簡単に組み合わせることができるようにする必要があります。新しい洞察は、新しいデータと既存のデータを組み合わせ、新しい関係を特定することで見出されます。そして、教師あり、教師なし両方の機械学習であるAIは、こうした新たな洞察を大規模に解き放つための最良の、そして時には唯一の方法となります。
IBMのお客様の多くは、オンプレミスのアナリティクス・アプライアンス、クラウド・データウェアハウス、データレイクなどのアナリティクス・レポジトリーを持っています。1つはオンプレミスから SaaSへの移行、もう1つは独占的な(プロブライエタリーな)テクノロジーよりもオープンソース・テクノロジーの普及と選好です。オープンなデータレイクハウスと、プロブライエタリーなデータウェアハウスとの間のパフォーマンスと機能のギャップが縮まり続ける中、レイクハウスは、ツールの選択肢と最適な価格性能を提供しながら、より多くのワークロードでウェアハウスと競合し始めています。
watsonx.data はデータ・マネジメントにどのような破壊的イノベーションをもたらすのか?
watsonx.dataには真にオープンな相互運用性があります
watsonx.dataは、オープンソースのテクノロジーだけでなく、Linux FoundationがホストするApache IcebergやPrestoのように、オープンソース・プロジェクト・ガバナンスと、多くのユーザーやコントリビューターが属する多様なコミュニティーを背景としたテクノロジーを活用します。
watsonx.dataは多様なクエリーエンジンをサポートしています
PrestoとSparkに始まり、watsonx.dataはビッグデータ探索、データ変換、AIモデルのトレーニングとチューニング、インタラクティブなクエリーまで、幅広いワークロードをカバーします。また、IBM Db2 WarehouseとNetezzaは、Iceberg オープン・テーブルフォーマットをサポートするように強化され、レイクハウスの一部としてシームレスに共存できるようになりました。
watsonx.dataはまさにハイブリッド
SaaSとセルフマネージド・ソフトウェアの展開モデルの両方、あるいはその両方の組み合わせをサポートします。これによりコスト最適化の機会がさらに広がります。
watsonx.dataにはガバナンスと自動化機能が組み込まれています
セキュリティーと規制コンプライアンスを確保しながら、セルフサービスでのアクセスを容易にします。Cloud Pak for DataおよびIBM Knowledge Catalogとの統合により、データフアブリック・アーキテクチャーにシームレスに適合し、自動化されたローカル実行によるー元化されたデータ・ガバナンスを実現します。
watsonx.dataは導入も使用も簡単です
最後に、watsonx.dataは既存のデータリポジトリーに簡単に接続できます。watsonx.aiの基盤モデルを活用し、対話型のユーザー・インターフェイスからデータ探索とエンリッチメントを実行することで、あらゆるユーザーがよりデータ主導で仕事を行えるようになります。
watsonx.dataの活用
IBMのお客様の多くは、アナリティクス・アプライアンスをオンプレミスで使用しており、その一部またはすべてのワークロードをSaaSに移行したいと考えています。最も簡単で費用対効果の高い方法は、当社のクラウド・データウェアハウスの互換性を活用することです。拡張性と回復力のあるオンデマンド・インフラストラクチャーとフルマネージド・サービスはより効果的なため、SaaSソリューションのランレートはオンプレミスのアプライアンスよりも高くなります。そのため、お客様はコスト削減の方法を模索しています。クラウド・データウェアハウスをwatsonx.dataで補強することで、お客様はウェアハウス内の履歴データの一部をIcebergのオープン・テーブルフォーマットに変換または階層化し、既存のクエリーやワークロードをすべて保持することができます。これにより、ストレージのコストが削減されると同時に、レイクハウス内の新しいAIワークロードがデータにアクセスできるようになります。
逆に、ローデータをレイクハウスに取り込み、コスト効率よくクレンジングとエンリッチメントを行い、その後ウェアハウスに昇格させることで、現在のレイクハウス・エンジンのSLAを上回る高パフォーマンスなクエリーを実行することができます。
ウェアハウスを使うかレイクハウスを使うかという意思決定ではありません。最適なアプローチはウエアハウスとレイクハウスを使用することです。理想的なアーキテクチャーは、単一の統合ソリューションですべてのワークロードの価格性能を最適化するマルチエンジン・レイクハウスです。さらに、ハイブリッド・クラウド環境全体で展開モデルを最適化する能力を加えれば、今後数年間に渡る基盤となるデータ・マネジメント・アーキテクチャーが完成します。
最後に、これらの重要なコンセプトのいくつかを例を用いて説明します。レイクハウス・アーキテクチャーは高速道路のようなもので、通行料のかかるところと無料のところがあると想像してみてください。渋滞していて急いでいる場合は、運転時間を短縮するために喜んで通行料を支払います。これは、顧客向けアプリケーションや経営層向けダッシュボードなど、厳格な SLA が設定されたワークロードと考えてください。 しかし、急いでいない場合は、無料の高速道路を利用しお金を節約することができます。これは、パフオーマンスが必ずしも推進要因ではない他のすべてのワークロードと考えてください。データウェアハウスをデフォルトで使用する代わりにレイクハウス エンジンを使用することで、コストを最大 50% 削減できます。
データ・マネジメントの未来はレイクハウス・アーキテクチャーにあると、私と同じように確言されたことと思います。ぜひwatsonx Dayにご参加いただき、新しいwatsonx ソリューションと、それがどのように貴社のAへのI取り組みを最適化できるかを探っていただければと思います。
この記事は英語版ブログ「The disruptive potential of open data lakehouse architectures and IBM watsonx.data」(2023年6月15日公開)を翻訳したものです。
関連情報
IBMのサービスとソリューション
データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む
敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載
IBM Data and AI, IBM Partner Ecosystem
目次 販売管理システムを知名度で選んではいないか? 電子取引データの保存完全義務化の本当の意味 ふくろう販売管理システムは「JIIMA認証」取得済み AIによる売上予測機能にも選択肢を 「眠っているデータの活用」が企業の ...続きを読む
テクノロジーが向かう先とは〜中長期テクノロジー・ロードマップ
IBM Cloud Blog, IBM Data and AI
IBM テクノロジー・ビジョン・ロードマップ – IBM テクノロジー・アトラスを戦略的・技術的な予測にご活用いただけます – IBM テクノロジー・アトラスとは? IBM テクノロジー・アトラス ...続きを読む