Beranda Topics Apa yang dimaksud dengan lakehouse data? Apa yang dimaksud dengan lakehouse data?
Jelajahi solusi rumah danau data IBM Berlangganan pembaruan AI
Ilustrasi dengan kolase piktogram awan, diagram lingkaran, piktogram grafik
Apa yang dimaksud dengan lakehouse data?

Data lakehouse berupaya menyelesaikan tantangan inti di seluruh gudang data dan data lake untuk menghasilkan solusi manajemen data yang lebih ideal bagi organisasi. Mereka mewakili evolusi berikutnya dari solusi manajemen data di pasar.

Data lakehouse adalah platform data, yang menggabungkan aspek-aspek terbaik dari data warehouse dan data lake ke dalam satu solusi manajemen data. Gudang data cenderung lebih berkinerja daripada data lake, tetapi mereka bisa lebih mahal dan terbatas dalam kemampuannya untuk menskalakan. Rumah data lake mencoba mengatasi hal ini dengan memanfaatkan penyimpanan objek cloud untuk menyimpan berbagai jenis data yang lebih luas-yaitu data terstruktur, data tidak terstruktur, dan data semi-terstruktur. Dengan membawa manfaat-manfaat ini ke dalam satu arsitektur data, tim data dapat mempercepat pemrosesan data mereka karena mereka tidak perlu lagi mengangkangi dua sistem data yang berbeda untuk menyelesaikan dan meningkatkan skala analisis yang lebih canggih, seperti pembelajaran mesin.

Mengapa tata kelola AI merupakan keharusan bisnis untuk meningkatkan kecerdasan buatan perusahaan

Pelajari tentang hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.

Konten terkait

Daftar untuk mendapatkan buku elektronik tentang alur kerja AI yang bertanggung jawab

Gudang data vs. danau data vs. rumah danau data 

Karena data lakehouse muncul dari tantangan data warehouse dan data lake, ada baiknya mendefinisikan repositori data yang berbeda ini dan memahami perbedaannya.

Gudang data

Sebuah gudang data mengumpulkan data mentah dari berbagai sumber ke dalam repositori pusat dan mengaturnya ke dalam infrastruktur database relasional. Sistem manajemen data ini terutama mendukung analisis data dan aplikasi intelijen bisnis, seperti pelaporan perusahaan. Sistem menggunakan proses ETL untuk mengekstrak, mengubah, dan memuat data ke tujuannya. Namun, metode ini dibatasi oleh ketidakefisienan dan biayanya, terutama karena jumlah sumber data dan kuantitas data bertambah seiring waktu.

Data lake

Data lake biasanya dibangun pada platform data besar seperti Apache Hadoop. Mereka dikenal dengan biaya rendah dan fleksibilitas penyimpanannya karena tidak memiliki skema yang telah ditentukan sebelumnya dari gudang data tradisional. Mereka juga menampung berbagai jenis data, seperti audio, video, dan teks. Karena sebagian besar produsen data menghasilkan data yang tidak terstruktur, hal ini menjadi perbedaan penting karena hal ini juga memungkinkan lebih banyak proyek ilmu data dan kecerdasan buatan (AI), yang pada gilirannya mendorong lebih banyak wawasan baru dan pengambilan keputusan yang lebih baik di seluruh organisasi. Namun, danau data bukannya tanpa tantangan tersendiri. Ukuran dan kompleksitas data lake dapat membutuhkan lebih banyak sumber daya teknis, seperti ilmuwan data dan insinyur data, untuk menavigasi jumlah data yang disimpannya. Selain itu, karena tata kelola data diimplementasikan lebih banyak di bagian hilir dalam sistem ini, danau data cenderung lebih rentan terhadap lebih banyak silo data, yang kemudian dapat berkembang menjadi rawa data. Ketika ini terjadi, danau data bisa tidak dapat digunakan.

Danau data dan gudang data biasanya digunakan bersama-sama. Data lake bertindak sebagai sistem penampung semua data baru, dan gudang data menerapkan struktur hilir ke data spesifik dari sistem ini. Namun, mengoordinasikan sistem ini untuk menyediakan data yang andal dapat memakan waktu dan sumber daya yang mahal. Waktu pemrosesan yang lama berkontribusi pada kemacetan data dan lapisan ETL tambahan menimbulkan lebih banyak risiko terhadap kualitas data.

Data Lakehouse

Data lakehouse mengoptimalkan kekurangan yang ada di dalam data warehouse dan data lake untuk membentuk sistem manajemen data yang lebih baik. Ini menyediakan penyimpanan yang cepat dan murah bagi organisasi untuk data perusahaan mereka sekaligus memberikan fleksibilitas yang cukup untuk mendukung analisis data dan beban kerja pembelajaran mesin.

Solusi terkait

Solusi manajemen data

Solusi Data Lake

Fitur utama dari data lakehouse

Seperti yang disebutkan sebelumnya, data lakehouse menggabungkan fitur terbaik dalam data warehousing dengan yang paling optimal dalam data lake. Ini memanfaatkan struktur data serupa dari gudang data dan memasangkannya dengan penyimpanan berbiaya rendah dan fleksibilitas data lake, memungkinkan organisasi untuk menyimpan dan mengakses data besar dengan cepat dan lebih efisien sekaligus memungkinkan mereka untuk mengurangi potensi masalah kualitas data. Ini mendukung kumpulan data yang beragam, yaitu data terstruktur dan tidak terstruktur, yang memenuhi kebutuhan alur kerja intelijen bisnis dan ilmu data. Ini biasanya mendukung bahasa pemrograman seperti Python, R, dan SQL berkinerja tinggi.

Rumah danau data juga mendukung transaksi ACID pada beban kerja data yang lebih besar. ACID adalah singkatan dari atomicity, consistency, isolation, dan durability; yang semuanya merupakan properti utama yang menentukan transaksi untuk memastikan integritas data. Atomisitas dapat didefinisikan sebagai semua perubahan data dilakukan seolah-olah mereka adalah operasi tunggal. Konsistensi adalah ketika data berada dalam keadaan konsisten ketika transaksi dimulai dan ketika berakhir. Isolasi mengacu pada keadaan transaksi perantara yang tidak terlihat oleh transaksi lain. Akibatnya, transaksi yang berjalan secara bersamaan tampaknya diserialisasi. Daya tahan adalah setelah transaksi berhasil diselesaikan, perubahan pada data tetap ada dan tidak dibatalkan, bahkan jika terjadi kegagalan sistem. Fitur ini sangat penting dalam memastikan konsistensi data karena beberapa pengguna membaca dan menulis data secara bersamaan. 

Arsitektur data lakehouse

Rumah data lake biasanya terdiri dari lima lapisan: lapisan konsumsi, lapisan penyimpanan, lapisan metadata, lapisan API, dan lapisan konsumsi. Ini membentuk pola arsitektur rumah danau data.

Lapisan penyerapan

Lapisan pertama ini mengumpulkan data dari berbagai sumber yang berbeda dan mengubahnya menjadi format yang dapat disimpan dan dianalisis di rumah danau. Lapisan konsumsi dapat menggunakan protokol untuk terhubung dengan sumber internal dan eksternal seperti sistem manajemen database, database NoSQL, media sosial, dan lain-lain. Seperti namanya, lapisan ini bertanggung jawab atas penyerapan data. 

Lapisan penyimpanan

Pada lapisan ini, data terstruktur, tidak terstruktur, dan semi terstruktur disimpan dalam format file sumber terbuka, seperti Parket atau Optimized Row Columnar (ORC). Manfaat nyata dari lakehouse adalah kemampuan sistem untuk menerima semua tipe data dengan biaya terjangkau. 

Lapisan metadata

Lapisan metadata adalah dasar dari rumah danau data. Ini adalah katalog terpadu yang memberikan metadata untuk setiap objek dalam penyimpanan danau, membantu mengatur dan memberikan informasi tentang data dalam sistem. Lapisan ini juga memberikan kesempatan kepada pengguna untuk menggunakan fitur-fitur manajemen seperti transaksi ACID, file caching, dan pengindeksan untuk query yang lebih cepat. Pengguna dapat mengimplementasikan skema yang telah ditentukan dalam lapisan ini, yang memungkinkan tata kelola data dan kemampuan audit.

Lapisan API

Rumah danau data menggunakan API, untuk meningkatkan pemrosesan tugas dan melakukan analitik yang lebih canggih. Secara khusus, lapisan ini memberikan kesempatan kepada konsumen dan/atau pengembang untuk menggunakan berbagai bahasa dan pustaka, seperti TensorFlow, pada tingkat abstrak. API dioptimalkan untuk konsumsi aset data. 

 Lapisan konsumsi data

Lapisan terakhir dari arsitektur data lakehouse ini menjadi tempat bagi aplikasi dan alat bantu klien, yang berarti memiliki akses ke semua metadata dan data yang tersimpan di dalam danau. Pengguna di seluruh organisasi dapat memanfaatkan lakehouse dan melakukan tugas analitis seperti dasbor intelijen bisnis, visualisasi data, dan pekerjaan pembelajaran mesin lainnya. 

Manfaat rumah danau data 

Karena data lakehouse dirancang untuk menyatukan fitur-fitur terbaik dari data warehouse dan data lake, maka data lakehouse memberikan manfaat utama yang spesifik bagi para penggunanya. Ini termasuk:

  • Mengurangi redundansi data: Sistem penyimpanan data tunggal memungkinkan platform yang ramping untuk melaksanakan semua permintaan data bisnis. Rumah danau data juga menyederhanakan pengamatan data dengan mengurangi jumlah data yang bergerak melalui jalur pipa data ke dalam beberapa sistem.  
  • Hemat biaya: Karena data lakehouse memanfaatkan biaya penyimpanan objek cloud yang lebih rendah, biaya operasional data lakehouse relatif lebih rendah dibandingkan data warehouse. Selain itu, arsitektur hybrid dari data lakehouse menghilangkan kebutuhan untuk memelihara beberapa sistem penyimpanan data, sehingga lebih murah untuk dioperasikan.  
  • Mendukung berbagai macam beban kerja: Data lakehouse dapat menangani berbagai kasus penggunaan di seluruh siklus manajemen data. Ini juga dapat mendukung aliran kerja intelijen bisnis dan visualisasi data atau ilmu data yang lebih kompleks.
  • Tata kelola yang lebih baik:  Arsitektur data lakehouse memitigasi masalah tata kelola standar yang ada pada data lake. Sebagai contoh, saat data dicerna dan diunggah, hal ini dapat memastikan bahwa data tersebut memenuhi persyaratan skema yang ditetapkan, sehingga mengurangi masalah kualitas data hilir.
  • Lebih banyak skala: Dalam gudang data tradisional, komputasi dan penyimpanan digabungkan bersama, yang meningkatkan biaya operasional. Data lakehouses memisahkan penyimpanan dan komputasi, memungkinkan tim data mengakses penyimpanan data yang sama sambil menggunakan node komputasi yang berbeda untuk aplikasi yang berbeda. Hal ini menghasilkan lebih banyak skalabilitas dan fleksibilitas.  
  • Dukungan streaming: Data lakehouse dibangun untuk bisnis dan teknologi masa kini dan banyak sumber data yang menggunakan streaming real-time langsung dari perangkat. Sistem danau mendukung konsumsi waktu nyata ini, yang hanya akan menjadi lebih populer di masa depan.  
Produk terkait
Data Lakehouse IBM watsonx.data

Tingkatkan beban kerja AI, untuk semua data Anda, di mana saja. IBM watsonx.data adalah satu-satunya penyimpanan data sehingga Anda dapat memanfaatkan beberapa mesin kueri untuk menjalankan beban kerja yang diatur, di mana pun mereka berada. Hasilnya, pemanfaatan sumber daya menjadi maksimal dan ekonomis.

Jelajahi IBM watsonx.data Lihat demo interaktif

Manajemen data IBM Db2

Dibangun di atas inovasi puluhan tahun dalam hal keamanan, skalabilitas, dan ketersediaan data, jaga agar aplikasi dan analitik Anda tetap terlindungi, berkinerja tinggi, dan tangguh, di mana saja dengan IBM Db2.

Jelajahi IBM Db2

Manajemen data Netezza Performance Server

Gudang data cloud-native canggih yang dirancang untuk analisis dan wawasan terpadu yang dapat diskalakan dan tersedia di mana saja. Dengan penskalaan elastis granular dan fungsionalitas jeda dan lanjutkan, Netezza Performance Server menawarkan kontrol biaya dan sumber daya pada skala perusahaan yang sangat besar.

Jelajahi Server Kinerja Netezza

Sumber daya data lakehouse AIOps Penting untuk Manajemen Ketahanan Terpadu di Data Lakehouses

IBM Research mengusulkan bahwa pendekatan terpadu dari data lakehouse menciptakan peluang unik untuk manajemen ketahanan data terpadu.

The Forrester Wave: Manajemen Data untuk Analitik, Q1 2023

Solusi IBM menyediakan kemampuan yang mengatasi tantangan lingkungan analitik. Lihat mengapa IBM dinobatkan sebagai pemimpin dalam manajemen data untuk solusi analitik.

Trinitas platform data: Kompetitif atau saling melengkapi?

Pahami bagaimana ketiga konsep ini dapat saling mengarah atau digunakan satu sama lain.

Presto 101: Apa itu Presto?

Pelajari tentang mesin kueri sumber terbuka yang cepat dan fleksibel yang tersedia dengan watsonx.data. arsitektur rumah danau data terbuka.

Ambil langkah selanjutnya

Skalakan beban kerja AI untuk semua data Anda di mana saja dengan IBM watsonx.data. Penyimpanan data yang disesuaikan untuk tujuan yang dibangun pada arsitektur terbuka data lakehouse.

Jelajahi watsonx.data Pesan demo langsung