Apa yang dimaksud dengan Platform Data Modern?

Apa itu platform data modern?

Platform data modern adalah rangkaian produk perangkat lunak cloud-first, cloud-native yang memungkinkan pengumpulan, pembersihan, transformasi, dan analisis data organisasi untuk membantu meningkatkan pengambilan keputusan.

Saluran data saat ini telah menjadi semakin kompleks dan penting untuk analitik data dan membuat keputusan berdasarkan data. Platform data modern membangun kepercayaan pada data ini dengan menyerap, menyimpan, memproses, dan mengubahnya dengan cara yang memastikan informasi yang akurat dan tepat waktu, mengurangi silo data, memungkinkan layanan mandiri, dan meningkatkan kualitas data.

Platform data modern, yang juga disebut sebagai tumpukan data modern, terdiri dari lima lapisan fondasi penting: penyimpanan dan pemrosesan data, konsumsi data, transformasi data, intelijen bisnis (BI), serta analitik dan observabilitas data.

Dua prinsip dasar yang mengatur platform data modern adalah:

Ketersediaan: Data tersedia di data lake atau gudang data, yang memisahkan penyimpanan dan komputasi. Memisahkan fungsi-fungsi ini memungkinkan untuk menyimpan data dalam jumlah besar dengan harga yang relatif murah.
Elastisitas: Fungsi komputasi berbasis cloud, yang memungkinkan skalabilitas otomatis. Misalnya, jika sebagian besar data dan analitik dikonsumsi pada hari dan waktu tertentu, pemrosesan dapat secara otomatis ditingkatkan untuk pengalaman pelanggan yang lebih baik dan dikurangi seiring dengan berkurangnya kebutuhan beban kerja.

Pesan demo IBM Databand hari ini

Lihat cara observabilitas data proaktif dapat membantu Anda mendeteksi insiden data lebih awal dan menyelesaikannya dengan lebih cepat.

Konten terkait

Berlangganan buletin IBM

Filosofi platform data modern

Platform data modern tidak hanya didukung oleh teknologi, tetapi juga oleh filosofi DevOps, DataOps, dan agile. Meskipun DevOps dan DataOps memiliki tujuan yang sama sekali berbeda, namun keduanya memiliki kesamaan filosofi tangkas, yang dirancang untuk mempercepat siklus kerja proyek.

DevOps berfokus pada pengembangan produk, sedangkan DataOps berfokus pada pembuatan dan pemeliharaan sistem arsitektur data terdistribusi yang memberikan nilai bisnis dari data.

Tangkas adalah filosofi untuk pengembangan perangkat lunak yang mengedepankan kecepatan dan efisiensi, tetapi tanpa menghilangkan faktor "manusia". Hal ini menekankan pada percakapan tatap muka sebagai cara untuk memaksimalkan komunikasi, sekaligus menekankan otomatisasi sebagai cara untuk meminimalkan kesalahan.

Penyimpanan dan pemrosesan data

Lapisan dasar pertama dari platform data modern adalah penyimpanan dan pemrosesan.

Sistem penyimpanan data modern difokuskan pada penggunaan data secara efisien, yang mencakup tempat penyimpanan data dan cara memprosesnya. Dua format penyimpanan yang paling populer adalah gudang data dan data lake, meskipun data lakehouse dan jaring data semakin populer.

Gudang data

Gudang data dirancang untuk mengelola data terstruktur dengan kasus penggunaan yang jelas dan terdefinisi.

Penggunaan gudang data dapat ditelusuri kembali ke tahun 1990-an ketika database digunakan untuk menyimpan data. Gudang data ini berada di lokasi dan memiliki kapasitas penyimpanan yang sangat terbatas.

Sekitar tahun 2013, gudang data mulai beralih ke cloud di mana skalabilitas menjadi sangat memungkinkan. Gudang data berbasis cloud tetap menjadi sistem penyimpanan data yang disukai karena mengoptimalkan daya komputasi dan kecepatan pemrosesan.

Agar gudang data berfungsi dengan baik, data harus dikumpulkan, diformat ulang, dibersihkan, dan diunggah ke gudang. Data apa pun yang tidak dapat diformat ulang mungkin hilang.

Data lake

Pada bulan Januari tahun 2008, Yahoo merilis Hadoop (berdasarkan NoSQL) sebagai proyek sumber terbuka untuk Apache Software Foundation. Data lake awalnya dibangun di Hadoop, dapat diskalakan dan dirancang untuk penggunaan on premises. Sayangnya, ekosistem Hadoop sangat kompleks dan sulit digunakan. Data lake mulai beralih ke cloud sekitar tahun 2015, membuatnya jauh lebih murah dan lebih ramah pengguna.

Data lake pada awalnya dirancang untuk mengumpulkan data tidak terstruktur mentah tanpa memaksakan skema (format) sehingga para peneliti dapat memperoleh lebih banyak insight dari berbagai macam data. Karena adanya masalah dalam mengurai informasi lama, tidak akurat, atau tidak berguna, data lake dapat menjadi "rawa data" yang kurang efektif.

Arsitektur data lake yang khas mungkin memiliki penyimpanan data pada object storage seperti Amazon S3 dari AWS, ditambah dengan alat seperti Spark untuk memproses data.

Data lakehouse

Data lakehouse menggabungkan fleksibilitas, efisiensi biaya, dan kemampuan penskalaan dari data lake dengan transaksi ACID (atomisitas, konsistensi, isolasi, dan daya tahan) dan fitur manajemen data dari data warehouse. (ACID adalah singkatan dari 4 sifat utama yang mendefinisikan sebuah transaksi: atomisitas, konsistensi, isolasi, dan daya tahan).

Data lakehouse mendukung BI dan pembelajaran mesin, sementara kekuatan utama dari data lakehouse adalah menggunakan lapisan metadata. Data lakehouse juga menggunakan mesin kueri baru, yang dirancang untuk pencarian SQL berkinerja tinggi.

Jaring data

Tidak seperti gudang data, data lake, dan data lakehouse, jaring data mendesentralisasi kepemilikan data. Dengan model arsitektur ini, domain tertentu (misalnya mitra bisnis atau departemen) tidak memiliki datanya, tetapi membagikannya secara bebas dengan domain lain. Ini berarti semua data dalam sistem jaring data harus mempertahankan format yang seragam.

Sistem data mesh dapat berguna untuk bisnis yang mendukung beberapa domain data. Di dalam desain jaring data, terdapat lapisan tata kelola data dan lapisan observabilitas. Ada juga lapisan interoperabilitas universal.

Jaring data dapat berguna bagi organisasi yang berkembang dengan cepat dan membutuhkan skalabilitas untuk menyimpan data.

Konsumsi data

Proses menempatkan data ke dalam sistem penyimpanan untuk digunakan di masa mendatang disebut dengan penyerapan data, yang merupakan lapisan kedua dari platform data modern.

Secara sederhana, penyerapan data berarti memindahkan data dari berbagai sumber ke lokasi pusat. Dari sana, data dapat digunakan untuk tujuan pencatatan atau pemrosesan dan analisis lebih lanjut, yang keduanya mengandalkan data yang dapat diakses, konsisten, dan akurat.

Organisasi membuat keputusan bisnis dengan menggunakan data dari infrastruktur analitik mereka. Nilai dari data ini tergantung pada seberapa baik data tersebut diserap dan diintegrasikan. Jika ada masalah selama proses konsumsi, seperti kumpulan data yang hilang atau ketinggalan zaman, setiap langkah proses analisis akan terganggu. Hal ini terutama berlaku jika menyangkut big data.

Model pemrosesan data

Menyerap data dapat dilakukan dengan cara yang berbeda, dan cara lapisan penyerapan data tertentu dirancang dapat didasarkan pada model pemrosesan yang berbeda. Data dapat berasal dari berbagai sumber berbeda, termasuk platform SaaS, perangkat internet of things (IoT), dan perangkat seluler. Model pemrosesan data yang baik bertindak sebagai dasar untuk strategi data yang efisien, sehingga organisasi harus menentukan model mana yang paling cocok untuk keadaan mereka.

Pemrosesan batch adalah bentuk yang paling umum dari penyerapan data, meskipun tidak dirancang untuk pemrosesan secara real time. Sebaliknya, pemrosesan batch ini mengumpulkan dan mengelompokkan data sumber ke dalam beberapa kelompok, yang dikirim ke tujuan. Pemrosesan batch dapat dimulai dengan menggunakan jadwal sederhana atau diaktifkan ketika kondisi tertentu yang telah ditentukan. Pemrosesan batch biasanya digunakan ketika data waktu nyata tidak diperlukan, karena membutuhkan lebih sedikit pekerjaan dan lebih murah daripada pemrosesan real time.
Pemrosesan real-time (juga disebut streaming atau pemrosesan aliran) tidak mengelompokkan data. Sebaliknya, data diperoleh, diubah, dan dimuat segera setelah data tersebut dikenali. Pemrosesan real-time lebih mahal karena memerlukan pemantauan sumber data secara konstan dan menerima informasi baru secara otomatis.

Transformasi data

Lapisan berikutnya, transformasi data, berhubungan dengan perubahan nilai, struktur dan format data, yang sering kali diperlukan untuk proyek analisis data. Data dapat ditransformasikan baik sebelum atau setelah tiba di tujuan penyimpanan ketika menggunakan pipeline data.

Hingga saat ini, model penyerapan data modern menggunakan prosedur ETL (ekstrak, transformasi, muat) untuk mengambil data dari sumbernya, memformat ulang, dan mengirimkannya ke tujuannya. Hal ini masuk akal ketika bisnis harus menggunakan sistem analitik internal yang mahal. Melakukan pekerjaan persiapan sebelum mengirimkannya, termasuk transformasi, membantu menurunkan biaya. Organisasi yang masih menggunakan gudang data lokal biasanya akan menggunakan proses ETL.

Banyak organisasi saat ini lebih memilih gudang data berbasis cloud (IBM, Snowflake, Google BigQuery, Microsoft Azure, dan lainnya) karena dapat mengukur sumber daya komputasi dan penyimpanan sesuai kebutuhan. Skalabilitas cloud memungkinkan transformasi pramuat dilewati, sehingga data mentah dapat dikirim ke gudang data dengan lebih cepat. Data kemudian ditransformasikan setelah tiba dengan menggunakan model ELT (ekstrak, muat, transformasi), biasanya ketika menjawab pertanyaan.

Pada titik ini, data dapat diterjemahkan ke dalam format SQL dan dijalankan di dalam gudang data selama penelitian.

Transformasi data memiliki beberapa keuntungan:

Kegunaan: Menstandarkan data dan meletakkannya di bawah struktur yang tepat memungkinkan tim rekayasa data Anda menghasilkan nilai bisnis dari data yang seharusnya tidak dapat digunakan dan tidak dapat dianalisis.

Kualitas data: Mentransformasi data mentah membantu mengidentifikasi dan memperbaiki kesalahan data, ketidakkonsistenan, dan nilai yang hilang, sehingga menghasilkan data yang lebih bersih dan akurat.
Organisasi yang lebih baik: Data yang diubah lebih mudah diproses oleh orang dan komputer.

Intelijen dan analitik bisnis

Lapisan platform data modern yang keempat adalah intelijen bisnis (BI) dan alat analisis.

Pada tahun 1865, Richard Millar Devens mempresentasikan frasa "kecerdasan bisnis" dalam "Cyclopædia of Commercial and Business Anecdotes." Dia menggunakan istilah ini untuk menggambarkan bagaimana bankir Sir Henry Furnese mengambil keuntungan dari informasi dengan mengumpulkannya dan menggunakannya sebelum pesaingnya.

Saat ini, banyak informasi bisnis yang dikumpulkan dari analisis bisnis, serta analisis data. BI dan alat analisis dapat digunakan untuk mengakses, menganalisis, dan mengubah data menjadi visualisasi yang memberikan wawasan yang mudah dipahami. Memberikan para peneliti dan ilmuwan data dengan intelijen terperinci dapat membantu mereka membuat keputusan bisnis taktis dan strategis.

Observabilitas data

Lapisan terakhir dari lima lapisan dasar platform data modern adalah observabilitas data.

Observabilitas data menggambarkan kemampuan untuk melihat dan mengamati keadaan data dan kesehatannya. Ini mencakup sejumlah aktivitas dan teknologi yang, jika digabungkan, memungkinkan pengguna untuk mengidentifikasi dan menyelesaikan kesulitan data dalam waktu yang hampir real-time.

Observabilitas memungkinkan tim rekayasa data untuk menjawab pertanyaan spesifik tentang apa yang terjadi di balik layar dalam sistem yang sangat terdistribusi. Ini dapat menunjukkan di mana data bergerak lambat dan apa yang rusak.

Manajer, tim data, dan berbagai pemangku kepentingan lainnya dapat dikirimi peringatan tentang potensi masalah sehingga mereka dapat menyelesaikannya secara proaktif. Meskipun fitur prediktabilitas dapat membantu, namun tidak menjamin bahwa fitur ini akan menangkap semua masalah.

Untuk membuat observabilitas data menjadi berguna, maka perlu menyertakan fitur-fitur ini:

Pelacakan SLA: Mengukur metadata pipeline dan kualitas data terhadap standar yang telah ditentukan sebelumnya.
Pemantauan: Dasbor terperinci yang menunjukkan metrik operasional sistem atau pipeline.
Pencatatan: Catatan historis (pelacakan, perbandingan, analisis) peristiwa disimpan untuk perbandingan dengan anomali yang baru ditemukan.
Peringatan: Peringatan dikirimkan untuk anomali dan peristiwa yang diperkirakan akan terjadi.
Analisis: Proses deteksi otomatis yang beradaptasi dengan sistem Anda.
Pelacakan: Menawarkan kemampuan untuk melacak metrik dan peristiwa tertentu.
Perbandingan: Memberikan latar belakang historis dan peringatan anomali.

Bagi banyak organisasi, observabilitas tertutup, yang berarti hanya departemen tertentu yang dapat mengakses data. Secara filosofis, sistem jaring data memecahkan masalah ini dengan mengharuskan data untuk dibagikan, yang umumnya tidak dianjurkan dalam sistem penyimpanan dan pemrosesan tradisional.

Lapisan platform data modern lainnya

Selain lima lapisan dasar di atas, lapisan lain yang umum ditemukan dalam tumpukan data modern meliputi:

Penemuan data

Data yang tidak dapat diakses pada dasarnya adalah data yang tidak berguna. Penemuan data membantu memastikan bahwa data tidak hanya diam saja. Penemuan data adalah tentang mengumpulkan, mengevaluasi, dan mengeksplorasi data dari berbagai sumber untuk membantu para pemimpin bisnis mendapatkan pemahaman tentang tren dan pola yang ditemukan dalam data. Penemuan data dapat membersihkan dan menyiapkan data, dan terkadang dikaitkan dengan BI karena dapat menyatukan data yang terpisah-pisah untuk dianalisis.

Tata kelola data

Platform data modern menekankan tata kelola dan keamanan data untuk melindungi informasi sensitif, memastikan kepatuhan terhadap peraturan, dan mengelola kualitas data. Alat-alat yang mendukung lapisan ini memiliki fitur kontrol akses data, enkripsi, audit, dan pelacakan silsilah data.

Katalog data dan manajemen metadata

Katalog data dan manajemen metadata sangat penting untuk menemukan dan memahami aset data yang tersedia. Hal ini membantu pengguna menemukan data yang tepat untuk analisis mereka.

Machine learning dan AI

Beberapa platform data modern menggabungkan pembelajaran mesin dan kemampuan AI untuk analisis prediktif, deteksi anomali, dan pengambilan keputusan otomatis.

Produk terkait

IBM Databand

IBM^® Databand^® adalah perangkat lunak observabilitas untuk pipeline data dan gudang yang secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan memberikan peringatan triase untuk memperbaiki masalah kualitas data.

Jelajahi Databand

IBM DataStage

Mendukung pola ETL dan ELT, IBM^® DataStage^® memberikan integrasi data yang fleksibel dan hampir real-time baik on premises maupun di cloud.

Jelajahi DataStage

Katalog Pengetahuan IBM

Katalog data cerdas untuk era AI, Katalog Pengetahuan IBM^® memungkinkan Anda mengakses, mengkurasi, mengategorikan, dan membagikan data, aset pengetahuan, dan hubungannya, di mana pun mereka berada.

Jelajahi Katalog Pengetahuan

Sumber daya

Apa yang dimaksud dengan Observabilitas Data?

Pelajari lebih lanjut untuk memahami apa itu observabilitas data, mengapa hal ini penting, bagaimana hal ini berkembang seiring dengan sistem data modern dan praktik terbaik untuk mengimplementasikan kerangka kerja observabilitas data.

Apa itu ELT (Ekstrak, Muat, Transformasi)? Panduan Pemula

Pelajari apa itu ELT, bagaimana prosesnya bekerja, apa bedanya dengan ETL, tantangan dan keterbatasannya, serta praktik terbaik untuk mengimplementasikan pipeline ELT.

Platform data cloud modern adalah fondasi dari semua rantai pasokan cerdas

Selama bertahun-tahun, rantai pasokan perusahaan bertumpu pada fondasi yang goyah dari data yang terputus, tidak dapat diverifikasi, dan tidak tepat waktu. Data yang bersih dan terhubung merupakan fondasi dari operasi rantai pasokan generasi berikutnya.

Apa yang dimaksud dengan ilmu data?

Pelajari cara ilmu data membuka wawasan bisnis, mempercepat transformasi digital, dan memungkinkan pengambilan keputusan berbasis data.

Ambil langkah selanjutnya

Terapkan observabilitas data proaktif dengan IBM Databand hari ini sehingga Anda dapat mengetahui kapan ada masalah kesehatan data sebelum pengguna Anda melakukannya.

Jelajahi Databand