Apache Hadoopとは、シンプルなプログラミング・モデルを使用して大規模なデータセットの信頼性の高い分散処理を提供する、Douglas Cutting氏に、そしてその後Yahoo社により開発されたオープンソース・ソフトウェア・フレームワークです。
Nutchの拡張性の限界を克服したHadoopは、コモディティー・コンピューターのクラスター上に構築されており、保管する、店舗、およびフォーマット要件なしで大量の構造化、半構造化、非構造化データを処理するための費用対効果の高いソリューションを提供します。
Hadoopを含むデータ・レイク・アーキテクチャーは、ビッグデータ分析に柔軟なデータ管理ソリューションを提供できます。Hadoop はオープンソース・プロジェクトで、分散計算モデルに従っているため、ビッグデータ・ソフトウェアおよびストレージ・ソリューションにかかるコストを削減できます。
Hadoopをクラウドサーバーにインストールして、ビッグデータに必要な計算とストレージのリソースをより適切に管理することもできます。利便性を高めるために、Linux OSエージェント、UNIX OSエージェント、Windows OSエージェントが事前に構成されており、自動的に起動できます。Amazon Web Services(AWS)やMicrosoft Azureなどの大手クラウド・ベンダーがソリューションを提供しています。Clouderaは、オンプレミスとクラウドの両方でHadoopワークロードをサポートしており、複数のベンダーの1つ以上のパブリッククラウド環境のオプションが含まれています。HadoopモニタリングAPIを使用して、クラスターおよびクラスター上のサービスを追加、更新、削除、表示したり、Hadoop上のその他すべてのタイプのモニタリングを行ったりすることができます。
データレイクハウス戦略をデータ・アーキテクチャーに統合することで、AIの拡張やコスト最適化の機会など、そのパワーを実感してください。
AIガバナンスに関するホワイトペーパーに登録する
Apache Software Foundation によって構築された Hadoop フレームワークには、次のものが含まれます。
追加のオープンソースソフトウェアプロジェクトでHadoopを強化します。
Hadoop クラスターをプロビジョニング、管理、および監視するための Web ベースのツールです。
データのシリアル化システムです。
単一の障害点がないように設計されたスケーラブルな NoSQL データベースです。
大規模な分散システムを監視するためのデータ収集システム。HDFSとMapReduceの上に構築されています。
大量のストリーミング・データを収集、集約し、HDFS に移動するためのサービスです。
非常に大きなテーブルの構造化データ・ストレージをサポートするスケーラブルな非リレーショナル分散データベースです。
データ・クエリー、テーブルのメタデータ・ストレージ、SQLのようなインターフェースでの分析のためのデータ・ウェアハウス・インフラストラクチャー。
スケーラブルな機械学習およびデータ・マイニング・ライブラリです。
Hadoop ジョブを管理するための Java ベースのワークロード・スケジューラーです。
並列計算のための高レベルのデータフロー言語と実行フレームワークです。
Hadoopとリレーショナル・データベースなどの構造化データ・ストアの間で効率的にデータを転送するためのツールです。
分散クラスターで機械学習とディープラーニング・ワークロードを実行するための統合 AI プラットフォームです。
YARN 上に構築された汎用データフロー・プログラミング・フレームワークです。MapReduceに代わるHadoopエコシステム内で採用されています。
分散アプリケーション用の高パフォーマンス調整サービスです。
Apache HadoopはJavaで書かれていますが、ビッグデータ・プロジェクトに応じて、開発者はPython、R、Scalaなどの選択した言語でプログラミングできます。付属のHadoopストリーミング・ユーティリティを使用すると、開発者は、マッパーまたはレデューサーとして任意のスクリプトまたは実行可能ファイルを使用してMapReduceジョブを作成および実行できます。
Apache Spark は、ビッグデータ処理用のオープンソース・フレームワークでもあるため、Hadoop とよく比較されます。実際、Spark は当初、処理パフォーマンスを向上させ、Hadoop MapReduce で可能な計算の種類を拡張するために構築されました。Spark はメモリ内処理を使用するため、MapReduce の読み取り/書き込み機能よりもはるかに高速です。
Hadoop は大量のデータのバッチ処理に最適ですが、Spark はバッチとリアルタイムの両方のデータ処理をサポートしており、ストリーミング・データやグラフの計算に最適です。Hadoop と Spark にはどちらも機械学習ライブラリがありますが、繰り返しになりますが、メモリ内処理のため、Spark の機械学習ははるかに高速です。
データドリブンな意思決定の向上:リアルタイムのデータ・ストリーミングのオーディオ、ビデオ、ソーシャルメディアのセンチメント、クリックストリームデータ)や、データ・ウェアハウスやリレーショナルデータベースでは使用されないその他の半構造化および非構造化データを統合します。より包括的なデータにより、より正確な意思決定が可能になります。
改善されたデータ・アクセスと分析:データサイエンティスト、基幹業務 (LOB) の所有者、開発者向けのリアルタイムのセルフサービス・アクセスを促進します。Hadoopは、データ、アルゴリズム、機械学習、AIを使用して高度な分析を行い、パターンを明らかにし、予測を構築する学際的な分野であるデータサイエンスを促進することができます。
データのオフロードと統合: 現在使用されていない「コールド」データをHadoopベースのディストリビューションに移動して保存することで、エンタープライズ・データ・ウェアハウスのコストを合理化します。または、組織全体のデータを統合して、アクセス性を高め、コストを削減します。
今日のAIのための予測的および処方的アナリティクスをサポートします。Clouderaのエンタープライズ・グレードのHadoopディストリビューションと、IBMとClouderaの両方の統合製品とサービスの単一のエコシステムを組み合わせて、データ検出、テスト、アドホック、およびほぼリアルタイムのクエリを改善します。IBMとClouderaのコラボレーションを活用して、エンタープライズHadoopソリューションを提供してください。
エンタープライズ・グレードのハイブリッド ANSI 準拠の SQL on-Hadoop エンジンを使用して、超並列処理 (MPP) と高度なデータ・クエリを実現します。
ストリーミング時にデータをレプリケートして、転送前にファイルを完全に書き込んだり閉じたりする必要がないようにします。
MongoDBやEDBなどの主要ベンダーのオープンソースデータベースを使用して、ビッグデータをよりコスト効率よく活用できます。
エンタープライズグレードの安全で管理されたオープンソースベースのデータレイクを使用して、高度なアナリティクスをどのように推進しているかをご覧ください。
データ管理ストラテジーにデータレイクを追加して、より深い洞察を得るためにより多くの非構造化データを統合します。
データレイクがAI対応データを提供するために必要なストレージおよびガバナンス・テクノロジーをご覧ください。
実績のあるガバナンス・ソリューションが、データレイクのデータ統合、品質、セキュリティをどのように向上させるかをご覧ください。
スキルレベルに基づいて、データサイエンス、AI、ビッグデータなどの無料コースから Your Learning パスを選択してください。
IBM コミュニティーに参加して、コラボレーションや参考情報などのオープンソース・データ管理を行いましょう。