Diperbarui: 14 Juni 2024
Kontributor: Cole Stryker
Pipeline data adalah metode di mana data mentah dicerna dari berbagai sumber data, ditransformasikan, dan kemudian diangkut ke penyimpanan data, seperti data lake atau gudang data, untuk dianalisis.
Sebelum data mengalir ke repositori data, biasanya dilakukan beberapa pemrosesan data. Ini termasuk transformasi data, seperti penyaringan, masking, dan agregasi, yang memastikan integrasi dan standardisasi data yang tepat. Ini sangat penting ketika tujuan untuk kumpulan data adalah basis data relasional. Jenis repositori data ini memiliki skema yang ditentukan yang membutuhkan penyelarasan—yaitu, pencocokan kolom dan jenis data—untuk memperbarui data yang ada dengan data yang baru.
Seperti namanya, pipeline data bertindak sebagai “saluran” untuk proyek ilmu data atau dasbor intelijen bisnis. Data dapat bersumber melalui berbagai tempat —API, basis data SQL dan NoSQL, file, dan lain-lain—tetapi sayangnya, data itu biasanya tidak siap untuk digunakan segera. Selama pengadaan, silsilah data dilacak untuk mendokumentasikan hubungan antara data perusahaan di berbagai aplikasi bisnis dan TI, misalnya, di mana data saat ini berada dan bagaimana data disimpan di lingkungan, seperti di lokasi, di data lake, atau di gudang data.
Tugas persiapan data biasanya berada di pundak ilmuwan data atau insinyur data, yang menyusun data untuk memenuhi kebutuhan contoh penggunaan bisnis dan menangani data dalam jumlah besar. Jenis pemrosesan data yang dibutuhkan oleh pipeline data biasanya ditentukan melalui perpaduan antara analisis data eksploratif dan kebutuhan bisnis yang telah ditentukan. Setelah data disaring, digabungkan, dan diringkas dengan tepat, data tersebut kemudian dapat disimpan dan muncul untuk digunakan. Pipeline data yang terorganisir dengan baik memberikan dasar untuk berbagai proyek data; hal ini dapat mencakup analisis data eksploratif, visualisasi data, dan tugas-tugas machine learning.
Tingkatkan beban kerja AI, untuk semua data Anda, di mana saja.
Ada beberapa jenis utama pipeline data, masing-masing sesuai untuk tugas-tugas tertentu pada platform tertentu.
Pengembangan pemrosesan batch merupakan langkah penting dalam membangun infrastruktur data yang dapat diandalkan dan terukur. Pada tahun 2004, MapReduce, sebuah algoritma pemrosesan batch, dipatenkan dan kemudian diintegrasikan ke dalam sistem sumber terbuka, seperti Hadoop, CouchDB, dan MongoDB.
Seperti namanya, pemrosesan batch memuat "batch" data ke dalam repositori selama interval waktu yang ditentukan, yang biasanya dijadwalkan selama jam kerja di luar jam sibuk. Dengan cara ini, beban kerja lain tidak terpengaruh karena pekerjaan pemrosesan batch cenderung bekerja dengan volume data yang besar, yang dapat membebani sistem secara keseluruhan. Pemrosesan batch biasanya merupakan jalur data yang optimal ketika tidak ada kebutuhan mendesak untuk menganalisis kumpulan data tertentu (misalnya, akuntansi bulanan), dan ini lebih terkait dengan proses integrasi data ETL, yang merupakan singkatan dari “extract, transform, and load (ekstrak, transformasi, dan muat)."
Pekerjaan pemrosesan batch membentuk alur kerja perintah yang diurutkan, di mana output dari satu perintah menjadi input dari perintah berikutnya. Misalnya, satu perintah mungkin memulai penyerapan data, perintah berikutnya dapat memicu pemfilteran kolom tertentu, dan perintah berikutnya dapat menangani agregasi. Rangkaian perintah ini akan berlanjut hingga kualitas data benar-benar diubah dan ditulis ulang menjadi repositori data.
Tidak seperti pemrosesan batching, pipeline data streaming—juga dikenal sebagai arsitektur berbasis peristiwa — terus memproses peristiwa yang dihasilkan oleh berbagai sumber, seperti sensor atau interaksi pengguna dalam aplikasi. Peristiwa diproses dan dianalisis, dan kemudian disimpan dalam basis data atau dikirim ke hilir untuk dianalisis lebih lanjut.
Streaming data dimanfaatkan ketika diperlukan agar data terus diperbarui. Sebagai contoh, aplikasi atau sistem titik penjualan membutuhkan data real-time untuk memperbarui inventaris dan riwayat penjualan produk mereka; dengan begitu, penjual dapat memberi tahu konsumen apakah suatu produk tersedia atau tidak. Satu tindakan, seperti penjualan produk, dianggap sebagai "peristiwa", dan peristiwa terkait, seperti menambahkan item ke checkout, biasanya dikelompokkan bersama sebagai "topik" atau "aliran". Peristiwa ini kemudian dibawa melalui sistem pesan atau perantara pesan, seperti penawaran sumber terbuka, Apache Kafka.
Karena peristiwa data diproses sesaat setelah terjadi, sistem pemrosesan streaming memiliki latensi yang lebih rendah daripada sistem batch, tetapi tidak dapat diandalkan seperti sistem pemrosesan batch karena pesan dapat secara tidak sengaja terlewat atau menghabiskan waktu yang lama dalam antrean. Perantara pesan membantu mengatasi masalah ini melalui pengakuan, di mana konsumen mengonfirmasi pemrosesan pesan kepada broker untuk menghapusnya dari antrean.
Pipeline integrasi data berkonsentrasi pada penggabungan data dari berbagai sumber ke dalam satu tampilan terpadu. Pipeline ini sering kali melibatkan proses ekstrak, transformasi, dan muat (ETL) yang membersihkan, memperkaya, atau memodifikasi data mentah sebelum menyimpannya di tempat penyimpanan terpusat seperti gudang data atau data lake. Pipeline integrasi data sangat penting untuk menangani sistem yang berbeda yang menghasilkan format atau struktur yang tidak kompatibel. Misalnya, koneksi dapat ditambahkan ke Amazon S3 (Amazon Simple Storage Service)—layanan yang ditawarkan oleh Amazon Web Services (AWS) yang menyediakan penyimpanan objek melalui antarmuka layanan web.
Platform data modern mencakup rangkaian produk peranti lunak cloud-first, cloud native yang memungkinkan pengumpulan, pembersihan, transformasi, dan analisis data organisasi untuk membantu meningkatkan pengambilan keputusan. Pipeline data saat ini telah menjadi semakin kompleks dan penting untuk analitik data dan membuat keputusan berbasis data. Platform data modern membangun kepercayaan pada data ini dengan menyerap, menyimpan, memproses, dan mengubahnya dengan cara yang memastikan informasi yang akurat dan tepat waktu, mengurangi silo data, memungkinkan layanan mandiri, dan meningkatkan kualitas data.
Tiga langkah inti membentuk arsitektur pipeline data.
1. Konsumsi data: Data dikumpulkan dari berbagai sumber—termasuk platform perangkat lunak sebagai layanan (SaaS), perangkat internet-of-things (IoT), dan perangkat seluler—dan berbagai struktur data, baik data terstruktur maupun data tidak terstruktur. Dalam data streaming, sumber data mentah ini biasanya dikenal sebagai produsen, penerbit, atau pengirim. Meskipun bisnis dapat memilih untuk mengekstrak data hanya ketika siap untuk memprosesnya, tetapi merupakan praktik yang lebih baik untuk menyimpan data mentah di dalam penyedia gudang data cloud terlebih dahulu. Dengan cara ini, bisnis dapat memperbarui data historis apa pun jika mereka perlu melakukan penyesuaian pada pekerjaan pemrosesan data. Selama proses pemasukan data ini, berbagai validasi dan pemeriksaan dapat dilakukan untuk memastikan konsistensi dan keakuratan data.
2. Transformasi data: Selama langkah ini, serangkaian pekerjaan dijalankan untuk memproses data ke dalam format yang diperlukan oleh repositori data tujuan. Pekerjaan ini menanamkan otomatisasi dan tata kelola untuk alur kerja yang berulang, seperti pelaporan bisnis, memastikan bahwa data dibersihkan dan diubah secara konsisten. Sebagai contoh, aliran data mungkin datang dalam format JSON bersarang, dan tahap transformasi data akan bertujuan untuk membuka gulungan JSON tersebut untuk mengekstrak bidang-bidang utama untuk analisis.
3. Penyimpanan data: Data yang telah ditransformasikan kemudian disimpan dalam repositori data, di mana data tersebut dapat dipaparkan ke berbagai pemangku kepentingan. Dalam data streaming, data yang diubah ini biasanya dikenal sebagai konsumen, pelanggan, atau penerima.
Anda mungkin menemukan bahwa beberapa istilah, seperti pipeline data dan pipeline ETL, digunakan secara bergantian dalam percakapan. Namun, Anda harus memikirkan pipeline ETL sebagai subkategori pipeline data. Kedua jenis saluran pipa ini dibedakan oleh tiga fitur utama:
Ketika big data terus tumbuh, manajemen data menjadi prioritas yang terus meningkat. Sementara pipeline data melayani berbagai fungsi, berikut ini adalah untuk aplikasi bisnis:
IBM DataStage adalah alat integrasi data terdepan di industri yang membantu merancang, mengembangkan, dan menjalankan pekerjaan yang memindahkan dan mentransformasikan data.
IBM Data Replication adalah peranti lunak sinkronisasi data yang menjaga sinkronisasi beberapa penyimpanan data secara hampir real-time. IBM Data Replication adalah solusi berdampak rendah, hanya melacak perubahan data yang ditangkap oleh log.
IBM Databand adalah perangkat lunak observabilitas untuk pipeline dan gudang data yang secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, peringatan triase, dan memantau kesehatan dan keandalan grafik asiklik terarah (DAG) Apache Airflow.
IBM watsonx.data adalah penyimpanan data yang sesuai tujuan yang dibangun di atas arsitektur data lakehouse terbuka untuk mengukur beban kerja analitik dan AI, untuk semua data Anda, di mana pun berada.
Baca smartpaper tentang cara membuat landasan data yang kuat untuk AI dengan berfokus pada tiga area manajemen data utama: akses, tata kelola, serta privasi dan kepatuhan.
Pelajari bagaimana State Bank of India menggunakan beberapa solusi IBM, bersama dengan metodologi IBM Garage™, untuk mengembangkan platform perbankan online yang komprehensif.