Apa itu Hadoop?

Apa itu Apache Hadoop?

Apache Hadoop adalah kerangka kerja perangkat lunak sumber terbuka yang dikembangkan oleh Douglas Cutting, yang saat itu bekerja di Yahoo, yang menyediakan pemrosesan terdistribusi yang sangat andal untuk kumpulan data besar menggunakan model pemrograman sederhana.

Hadoop mengatasi keterbatasan skalabilitas Nutch, dan dibangun di atas kluster komputer komoditas, memberikan solusi hemat biaya untuk menyimpan dan memproses data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar tanpa persyaratan format.

Arsitektur data lake termasuk Hadoop dapat menawarkan solusi manajemen data yang fleksibel untuk inisiatif analisis big data Anda. Karena Hadoop adalah proyek sumber terbuka dan mengikuti model komputasi terdistribusi, Hadoop bisa menawarkan harga yang lebih hemat untuk perangkat lunak big data dan solusi penyimpanan.

Hadoop juga dapat diinstal di server cloud untuk mengelola sumber daya komputasi dan penyimpanan yang diperlukan untuk big data dengan lebih baik. Untuk kenyamanan yang lebih baik, agen OS Linux, agen OS UNIX, dan agen OS Windows telah dikonfigurasikan sebelumnya dan dapat dimulai secara otomatis. Vendor cloud terkemuka seperti Amazon Web Services (AWS) dan Microsoft Azure menawarkan berbagai solusi. Cloudera mendukung beban kerja Hadoop baik on premises maupun di cloud, termasuk opsi untuk satu atau lebih lingkungan cloud publik dari beberapa vendor. Gunakan API pemantauan Hadoop untuk menambah, memperbarui, menghapus dan melihat cluster dan layanan pada cluster, dan untuk semua jenis pemantauan lainnya di Hadoop.

Penyimpanan data untuk AI

Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk peningkatan untuk meningkatkan skala AI dan peluang pengoptimalan biaya.

Konten terkait

Daftar untuk mendapatkan buku putih tentang tata kelola AI

Ekosistem Hadoop

Kerangka kerja Hadoop, yang dibangun oleh Apache Software Foundation, meliputi:

Hadoop Common: Utilitas dan pustaka umum yang mendukung modul Hadoop lainnya. Juga dikenal sebagai Hadoop Core.
Hadoop HDFS (Hadoop Distributed File System): Sistem file terdistribusi untuk menyimpan data aplikasi pada perangkat keras komoditas. HDFS dirancang untuk memberikan toleransi kesalahan pada Hadoop dan menyediakan bandwidth data agregat yang tinggi serta akses throughput yang tinggi pada data. Secara default, blok data direplikasi di beberapa node pada waktu pemuatan atau penulisan. Tingkat replikasi dapat dikonfigurasi: replikasi default adalah tiga. Arsitektur HDFS memiliki fitur NameNode untuk mengelola namespace sistem file dan akses file serta beberapa DataNode untuk mengelola penyimpanan data. Dengan mengaktifkan ketersediaan tinggi, simpul sekunder dapat digunakan ketika node aktif mati.
Hadoop YARN: Apache Hadoop YARN open-source adalah kerangka kerja untuk penjadwalan pekerjaan dan manajemen sumber daya klaster yang dapat digunakan dengan IBM Spectrum Symphony di Linux dan Linux di POWER. YARN adalah singkatan dari Yet Another Resource Negotiator. YARN mendukung lebih banyak beban kerja, seperti SQL interaktif, pemodelan tingkat lanjut, dan streaming real time.
Hadoop MapReduce: Sistem berbasis YARN yang menyimpan data pada beberapa sumber dan kekuatan untuk pemrosesan paralel sejumlah besar data. Beberapa teknik pengoptimalan tersedia untuk MapReduce untuk mempercepat pekerjaan.
Hadoop Ozone: Penyimpanan objek yang skalabel, redundan, dan terdistribusi yang dirancang untuk aplikasi big data .

Mendukung proyek Apache

Tingkatkan Hadoop dengan proyek perangkat lunak sumber terbuka tambahan.

Ambari

Alat berbasis web untuk menyediakan, mengelola, dan memantau klaster Hadoop.

Avro

Sistem serialisasi data.

Pelajari tentang Avro

Cassandra

Database NoSQL yang dapat diskalakan dan dirancang agar bebas dari satu pun titik kegagalan.

Chukwa

Sistem pengumpulan data untuk memantau sistem terdistribusi besar; dibangun di atas HDFS dan MapReduce.

Flume

Layanan untuk mengumpulkan, menggabungkan, dan memindahkan data streaming dalam jumlah besar ke HDFS.

HBase

Database terdistribusi non-relasional yang dapat diskalakan dan mendukung penyimpanan data terstruktur untuk tabel berukuran sangat besar.

Pelajari tentang Apache HBase

Hive

Infrastruktur gudang data untuk kueri data, penyimpanan metadata untuk tabel dan analisis dalam antarmuka seperti SQL.

Pelajari tentang Apache Hive

Mahout

Pustaka machine learning dan penambangan data yang skalabel.

Oozie

Workload scheduler berbasis Java untuk mengelola pekerjaan Hadoop.

Pig

Bahasa aliran data tingkat tinggi dan kerangka kerja eksekusi untuk komputasi paralel.

Pelajari tentang Apache Pig

Sqoop

Alat untuk mentransfer data secara efisien antara Hadoop dan penyimpanan data terstruktur seperti database relasional.

Submarine

Platform AI terpadu untuk menjalankan machine learning dan beban kerja pembelajaran mendalam dalam kluster terdistribusi.

Tez

Kerangka pemrograman aliran data yang digeneralisasi, dibangun di atas YARN; diadopsi dalam ekosistem Hadoop untuk menggantikan MapReduce.

Zookeeper

Layanan koordinasi berkinerja tinggi untuk aplikasi terdistribusi.

Hadoop untuk pengembang

Apache Hadoop ditulis di Java, tetapi bergantung pada proyek big data-nya, pengembang dapat memprogram dalam bahasa pilihan mereka, seperti Python, R, atau Scala. Utilitas Hadoop Streaming yang disertakan memungkinkan pengembang membuat dan menjalankan pekerjaan MapReduce dengan skrip apa pun atau dapat dieksekusi sebagai mapper atau peredam.

Spark vs. Hadoop

Apache Spark sering dibandingkan dengan Hadoop karena juga merupakan kerangka kerja sumber terbuka untuk pemrosesan data besar.Faktanya, Spark pada awalnya dibuat untuk meningkatkan kinerja pemrosesan dan memperluas jenis komputasi yang mungkin dilakukan dengan Hadoop MapReduce.Spark menggunakan pemrosesan dalam memori, yang berarti jauh lebih cepat daripada kemampuan baca/tulis MapReduce.

Meskipun Hadoop paling baik untuk pemrosesan batch data dalam jumlah besar, Spark mendukung pemrosesan data batch dan real-time serta ideal untuk streaming data dan komputasi grafik.Baik Hadoop maupun Spark memiliki pustaka machine learning. Namun sekali lagi, karena pemrosesan dalam memori, pembelajaran mesin Spark jauh lebih cepat.

Pelajari selengkapnya tentang Apache Spark

Contoh penggunaan Hadoop

Keputusan berbasis data yang lebih baik: Mengintegrasikan data real-time (streaming audio, video, sentimen media sosial, dan data clickstream) dan data semi-terstruktur dan tidak terstruktur lainnya yang tidak digunakan dalam gudang data atau database relasional. Data yang lebih komprehensif menyumbang untuk keputusan yang lebih akurat.

Peningkatan akses dan analisis data: Dorong akses layanan mandiri secara real-time untuk ilmuwan data, pemilik lini bisnis (LOB), dan pengembang Anda. Hadoop mampu mendorong ilmu data, bidang interdisipliner yang menggunakan data, algoritme, pembelajaran mesin, dan AI untuk analisis tingkat lanjut guna mengungkap pola dan membuat prediksi.

Pembongkaran dan konsolidasi data: Sederhanakan biaya di pusat data perusahaan Anda dengan memindahkan data “dingin” yang saat ini tidak digunakan ke distribusi berbasis Hadoop untuk penyimpanan. Atau konsolidasikan data di seluruh organisasi untuk meningkatkan aksesibilitas dan menurunkan biaya.

Solusi terkait

IBM dan Cloudera

Mendukung analisis prediktif dan preskriptif untuk AI masa kini. Menggabungkan distribusi Hadoop tingkat perusahaan Cloudera dengan satu ekosistem produk dan layanan terintegrasi dari IBM dan Cloudera untuk meningkatkan penemuan data, pengujian, ad hoc, dan kueri hampir real-time.Manfaatkan kolaborasi antara IBM dan Cloudera untuk menghadirkan solusi Hadoop bagi perusahaan.

Jelajahi IBM dan Cloudera

IBM Db2 Big SQL

Gunakan mesin SQL-on-Hadoop hibrida yang sesuai dengan ANSI tingkat perusahaan untuk menghasilkan pemrosesan paralel besar-besaran (MPP) dan kueri data tingkat lanjut.

Jelajahi Db2 Big SQL

IBM Big Replicate

Mereplikasi data saat dialirkan sehingga file tidak perlu ditulis atau ditutup sepenuhnya sebelum ditransfer.

Jelajahi Big Replicate

Database sumber terbuka

Memanfaatkan data besar secara lebih hemat biaya dengan database sumber terbuka dari vendor terkemuka seperti MongoDB dan EDB.

Jelajahi database sumber terbuka

Sumber daya

IBM + Cloudera

Lihat cara mereka mendorong analisis tingkat lanjut dengan data lake berbasis sumber terbuka tingkat perusahaan yang aman dan terkelola.

Cara menghubungkan lebih banyak data

Tambahkan data lake ke strategi pengelolaan data Anda untuk mengintegrasikan lebih banyak data tidak terstruktur demi mendapatkan insight yang lebih mendalam.

Data lake yang tangguh dan terkelola untuk AI

Jelajahi penyimpanan dan tata kelola teknologi yang dibutuhkan data lake Anda untuk menghasilkan data yang siap AI.

Tata kelola data lake

Lihat bagaimana solusi tata kelola yang telah terbukti mampu mendorong integrasi, kualitas, dan keamanan data yang lebih baik untuk data lake Anda.

Kursus analisis big data

Pilih jalur pembelajaran Anda, berdasarkan tingkat keahlian, mulai dari kursus gratis dalam ilmu data, AI, big data, dan banyak lagi.

Komunitas sumber terbuka

Bergabunglah dengan komunitas IBM untuk manajemen data sumber terbuka untuk kolaborasi, sumber daya, dan banyak lagi.

Ambil langkah selanjutnya

Skalakan beban kerja AI untuk semua data Anda di mana saja dengan IBM watsonx.data. Penyimpanan data yang disesuaikan untuk tujuan yang dibangun pada arsitektur terbuka data lakehouse.

Jelajahi watsonx.data

Pesan demo langsung