Platform data modern adalah rangkaian produk perangkat lunak cloud-first, cloud-native yang memungkinkan pengumpulan, pembersihan, transformasi, dan analisis data organisasi untuk membantu meningkatkan pengambilan keputusan.
Saluran data saat ini telah menjadi semakin kompleks dan penting untuk analitik data dan membuat keputusan berdasarkan data. Platform data modern membangun kepercayaan pada data ini dengan menyerap, menyimpan, memproses, dan mengubahnya dengan cara yang memastikan informasi yang akurat dan tepat waktu, mengurangi silo data, memungkinkan layanan mandiri, dan meningkatkan kualitas data.
Platform data modern, yang juga disebut sebagai tumpukan data modern, terdiri dari lima lapisan fondasi penting: penyimpanan dan pemrosesan data, konsumsi data, transformasi data, intelijen bisnis (BI), serta analitik dan observabilitas data.
Dua prinsip dasar yang mengatur platform data modern adalah:
Lihat cara observabilitas data proaktif dapat membantu Anda mendeteksi insiden data lebih awal dan menyelesaikannya dengan lebih cepat.
Berlangganan buletin IBM
Platform data modern tidak hanya didukung oleh teknologi, tetapi juga oleh filosofi DevOps, DataOps, dan agile. Meskipun DevOps dan DataOps memiliki tujuan yang sama sekali berbeda, namun keduanya memiliki kesamaan filosofi tangkas, yang dirancang untuk mempercepat siklus kerja proyek.
DevOps berfokus pada pengembangan produk, sedangkan DataOps berfokus pada pembuatan dan pemeliharaan sistem arsitektur data terdistribusi yang memberikan nilai bisnis dari data.
Tangkas adalah filosofi untuk pengembangan perangkat lunak yang mengedepankan kecepatan dan efisiensi, tetapi tanpa menghilangkan faktor "manusia". Hal ini menekankan pada percakapan tatap muka sebagai cara untuk memaksimalkan komunikasi, sekaligus menekankan otomatisasi sebagai cara untuk meminimalkan kesalahan.
Lapisan dasar pertama dari platform data modern adalah penyimpanan dan pemrosesan.
Sistem penyimpanan data modern difokuskan pada penggunaan data secara efisien, yang mencakup tempat penyimpanan data dan cara memprosesnya. Dua format penyimpanan yang paling populer adalah gudang data dan data lake, meskipun data lakehouse dan jaring data semakin populer.
Gudang data
Gudang data dirancang untuk mengelola data terstruktur dengan kasus penggunaan yang jelas dan terdefinisi.
Penggunaan gudang data dapat ditelusuri kembali ke tahun 1990-an ketika database digunakan untuk menyimpan data. Gudang data ini berada di lokasi dan memiliki kapasitas penyimpanan yang sangat terbatas.
Sekitar tahun 2013, gudang data mulai beralih ke cloud di mana skalabilitas menjadi sangat memungkinkan. Gudang data berbasis cloud tetap menjadi sistem penyimpanan data yang disukai karena mengoptimalkan daya komputasi dan kecepatan pemrosesan.
Agar gudang data berfungsi dengan baik, data harus dikumpulkan, diformat ulang, dibersihkan, dan diunggah ke gudang. Data apa pun yang tidak dapat diformat ulang mungkin hilang.
Data lake
Pada bulan Januari tahun 2008, Yahoo merilis Hadoop (berdasarkan NoSQL) sebagai proyek sumber terbuka untuk Apache Software Foundation. Data lake awalnya dibangun di Hadoop, dapat diskalakan dan dirancang untuk penggunaan on premises. Sayangnya, ekosistem Hadoop sangat kompleks dan sulit digunakan. Data lake mulai beralih ke cloud sekitar tahun 2015, membuatnya jauh lebih murah dan lebih ramah pengguna.
Data lake pada awalnya dirancang untuk mengumpulkan data tidak terstruktur mentah tanpa memaksakan skema (format) sehingga para peneliti dapat memperoleh lebih banyak insight dari berbagai macam data. Karena adanya masalah dalam mengurai informasi lama, tidak akurat, atau tidak berguna, data lake dapat menjadi "rawa data" yang kurang efektif.
Arsitektur data lake yang khas mungkin memiliki penyimpanan data pada object storage seperti Amazon S3 dari AWS, ditambah dengan alat seperti Spark untuk memproses data.
Data lakehouse
Data lakehouse menggabungkan fleksibilitas, efisiensi biaya, dan kemampuan penskalaan dari data lake dengan transaksi ACID (atomisitas, konsistensi, isolasi, dan daya tahan) dan fitur manajemen data dari data warehouse. (ACID adalah singkatan dari 4 sifat utama yang mendefinisikan sebuah transaksi: atomisitas, konsistensi, isolasi, dan daya tahan).
Data lakehouse mendukung BI dan pembelajaran mesin, sementara kekuatan utama dari data lakehouse adalah menggunakan lapisan metadata. Data lakehouse juga menggunakan mesin kueri baru, yang dirancang untuk pencarian SQL berkinerja tinggi.
Jaring data
Tidak seperti gudang data, data lake, dan data lakehouse, jaring data mendesentralisasi kepemilikan data. Dengan model arsitektur ini, domain tertentu (misalnya mitra bisnis atau departemen) tidak memiliki datanya, tetapi membagikannya secara bebas dengan domain lain. Ini berarti semua data dalam sistem jaring data harus mempertahankan format yang seragam.
Sistem data mesh dapat berguna untuk bisnis yang mendukung beberapa domain data. Di dalam desain jaring data, terdapat lapisan tata kelola data dan lapisan observabilitas. Ada juga lapisan interoperabilitas universal.
Jaring data dapat berguna bagi organisasi yang berkembang dengan cepat dan membutuhkan skalabilitas untuk menyimpan data.
Proses menempatkan data ke dalam sistem penyimpanan untuk digunakan di masa mendatang disebut dengan penyerapan data, yang merupakan lapisan kedua dari platform data modern.
Secara sederhana, penyerapan data berarti memindahkan data dari berbagai sumber ke lokasi pusat. Dari sana, data dapat digunakan untuk tujuan pencatatan atau pemrosesan dan analisis lebih lanjut, yang keduanya mengandalkan data yang dapat diakses, konsisten, dan akurat.
Organisasi membuat keputusan bisnis dengan menggunakan data dari infrastruktur analitik mereka. Nilai dari data ini tergantung pada seberapa baik data tersebut diserap dan diintegrasikan. Jika ada masalah selama proses konsumsi, seperti kumpulan data yang hilang atau ketinggalan zaman, setiap langkah proses analisis akan terganggu. Hal ini terutama berlaku jika menyangkut big data.
Model pemrosesan data
Menyerap data dapat dilakukan dengan cara yang berbeda, dan cara lapisan penyerapan data tertentu dirancang dapat didasarkan pada model pemrosesan yang berbeda. Data dapat berasal dari berbagai sumber berbeda, termasuk platform SaaS, perangkat internet of things (IoT), dan perangkat seluler. Model pemrosesan data yang baik bertindak sebagai dasar untuk strategi data yang efisien, sehingga organisasi harus menentukan model mana yang paling cocok untuk keadaan mereka.
Lapisan berikutnya, transformasi data, berhubungan dengan perubahan nilai, struktur dan format data, yang sering kali diperlukan untuk proyek analisis data. Data dapat ditransformasikan baik sebelum atau setelah tiba di tujuan penyimpanan ketika menggunakan pipeline data.
Hingga saat ini, model penyerapan data modern menggunakan prosedur ETL (ekstrak, transformasi, muat) untuk mengambil data dari sumbernya, memformat ulang, dan mengirimkannya ke tujuannya. Hal ini masuk akal ketika bisnis harus menggunakan sistem analitik internal yang mahal. Melakukan pekerjaan persiapan sebelum mengirimkannya, termasuk transformasi, membantu menurunkan biaya. Organisasi yang masih menggunakan gudang data lokal biasanya akan menggunakan proses ETL.
Banyak organisasi saat ini lebih memilih gudang data berbasis cloud (IBM, Snowflake, Google BigQuery, Microsoft Azure, dan lainnya) karena dapat mengukur sumber daya komputasi dan penyimpanan sesuai kebutuhan. Skalabilitas cloud memungkinkan transformasi pramuat dilewati, sehingga data mentah dapat dikirim ke gudang data dengan lebih cepat. Data kemudian ditransformasikan setelah tiba dengan menggunakan model ELT (ekstrak, muat, transformasi), biasanya ketika menjawab pertanyaan.
Pada titik ini, data dapat diterjemahkan ke dalam format SQL dan dijalankan di dalam gudang data selama penelitian.
Transformasi data memiliki beberapa keuntungan:
Lapisan platform data modern yang keempat adalah intelijen bisnis (BI) dan alat analisis.
Pada tahun 1865, Richard Millar Devens mempresentasikan frasa "kecerdasan bisnis" dalam "Cyclopædia of Commercial and Business Anecdotes." Dia menggunakan istilah ini untuk menggambarkan bagaimana bankir Sir Henry Furnese mengambil keuntungan dari informasi dengan mengumpulkannya dan menggunakannya sebelum pesaingnya.
Saat ini, banyak informasi bisnis yang dikumpulkan dari analisis bisnis, serta analisis data. BI dan alat analisis dapat digunakan untuk mengakses, menganalisis, dan mengubah data menjadi visualisasi yang memberikan wawasan yang mudah dipahami. Memberikan para peneliti dan ilmuwan data dengan intelijen terperinci dapat membantu mereka membuat keputusan bisnis taktis dan strategis.
Lapisan terakhir dari lima lapisan dasar platform data modern adalah observabilitas data.
Observabilitas data menggambarkan kemampuan untuk melihat dan mengamati keadaan data dan kesehatannya. Ini mencakup sejumlah aktivitas dan teknologi yang, jika digabungkan, memungkinkan pengguna untuk mengidentifikasi dan menyelesaikan kesulitan data dalam waktu yang hampir real-time.
Observabilitas memungkinkan tim rekayasa data untuk menjawab pertanyaan spesifik tentang apa yang terjadi di balik layar dalam sistem yang sangat terdistribusi. Ini dapat menunjukkan di mana data bergerak lambat dan apa yang rusak.
Manajer, tim data, dan berbagai pemangku kepentingan lainnya dapat dikirimi peringatan tentang potensi masalah sehingga mereka dapat menyelesaikannya secara proaktif. Meskipun fitur prediktabilitas dapat membantu, namun tidak menjamin bahwa fitur ini akan menangkap semua masalah.
Untuk membuat observabilitas data menjadi berguna, maka perlu menyertakan fitur-fitur ini:
Bagi banyak organisasi, observabilitas tertutup, yang berarti hanya departemen tertentu yang dapat mengakses data. Secara filosofis, sistem jaring data memecahkan masalah ini dengan mengharuskan data untuk dibagikan, yang umumnya tidak dianjurkan dalam sistem penyimpanan dan pemrosesan tradisional.
Selain lima lapisan dasar di atas, lapisan lain yang umum ditemukan dalam tumpukan data modern meliputi:
Data yang tidak dapat diakses pada dasarnya adalah data yang tidak berguna. Penemuan data membantu memastikan bahwa data tidak hanya diam saja. Penemuan data adalah tentang mengumpulkan, mengevaluasi, dan mengeksplorasi data dari berbagai sumber untuk membantu para pemimpin bisnis mendapatkan pemahaman tentang tren dan pola yang ditemukan dalam data. Penemuan data dapat membersihkan dan menyiapkan data, dan terkadang dikaitkan dengan BI karena dapat menyatukan data yang terpisah-pisah untuk dianalisis.
Platform data modern menekankan tata kelola dan keamanan data untuk melindungi informasi sensitif, memastikan kepatuhan terhadap peraturan, dan mengelola kualitas data. Alat-alat yang mendukung lapisan ini memiliki fitur kontrol akses data, enkripsi, audit, dan pelacakan silsilah data.
Katalog data dan manajemen metadata sangat penting untuk menemukan dan memahami aset data yang tersedia. Hal ini membantu pengguna menemukan data yang tepat untuk analisis mereka.
Beberapa platform data modern menggabungkan pembelajaran mesin dan kemampuan AI untuk analisis prediktif, deteksi anomali, dan pengambilan keputusan otomatis.
IBM® Databand® adalah perangkat lunak observabilitas untuk pipeline data dan gudang yang secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan memberikan peringatan triase untuk memperbaiki masalah kualitas data.
Mendukung pola ETL dan ELT, IBM® DataStage® memberikan integrasi data yang fleksibel dan hampir real-time baik on premises maupun di cloud.
Katalog data cerdas untuk era AI, Katalog Pengetahuan IBM® memungkinkan Anda mengakses, mengkurasi, mengategorikan, dan membagikan data, aset pengetahuan, dan hubungannya, di mana pun mereka berada.
Pelajari lebih lanjut untuk memahami apa itu observabilitas data, mengapa hal ini penting, bagaimana hal ini berkembang seiring dengan sistem data modern dan praktik terbaik untuk mengimplementasikan kerangka kerja observabilitas data.
Pelajari apa itu ELT, bagaimana prosesnya bekerja, apa bedanya dengan ETL, tantangan dan keterbatasannya, serta praktik terbaik untuk mengimplementasikan pipeline ELT.
Selama bertahun-tahun, rantai pasokan perusahaan bertumpu pada fondasi yang goyah dari data yang terputus, tidak dapat diverifikasi, dan tidak tepat waktu. Data yang bersih dan terhubung merupakan fondasi dari operasi rantai pasokan generasi berikutnya.
Pelajari cara ilmu data membuka wawasan bisnis, mempercepat transformasi digital, dan memungkinkan pengambilan keputusan berbasis data.