Apa Itu Pipeline Data?

Diperbarui: 14 Juni 2024
Kontributor: Cole Stryker

Apa itu pipeline data?

Pipeline data adalah metode di mana data mentah dicerna dari berbagai sumber data, ditransformasikan, dan kemudian diangkut ke penyimpanan data, seperti data lake atau gudang data, untuk dianalisis.

Sebelum data mengalir ke repositori data, biasanya dilakukan beberapa pemrosesan data. Ini termasuk transformasi data, seperti penyaringan, masking, dan agregasi, yang memastikan integrasi dan standardisasi data yang tepat. Ini sangat penting ketika tujuan untuk kumpulan data adalah basis data relasional. Jenis repositori data ini memiliki skema yang ditentukan yang membutuhkan penyelarasan—yaitu, pencocokan kolom dan jenis data—untuk memperbarui data yang ada dengan data yang baru. 

Seperti namanya, pipeline data bertindak sebagai “saluran” untuk proyek ilmu data atau dasbor intelijen bisnis. Data dapat bersumber melalui berbagai tempat —API, basis data SQL dan NoSQL, file, dan lain-lain—tetapi sayangnya, data itu biasanya tidak siap untuk digunakan segera. Selama pengadaan, silsilah data dilacak untuk mendokumentasikan hubungan antara data perusahaan di berbagai aplikasi bisnis dan TI, misalnya, di mana data saat ini berada dan bagaimana data disimpan di lingkungan, seperti di lokasi, di data lake, atau di gudang data.

Tugas persiapan data biasanya berada di pundak ilmuwan data atau insinyur data, yang menyusun data untuk memenuhi kebutuhan contoh penggunaan bisnis dan menangani data dalam jumlah besar. Jenis pemrosesan data yang dibutuhkan oleh pipeline data biasanya ditentukan melalui perpaduan antara analisis data eksploratif dan kebutuhan bisnis yang telah ditentukan. Setelah data disaring, digabungkan, dan diringkas dengan tepat, data tersebut kemudian dapat disimpan dan muncul untuk digunakan. Pipeline data yang terorganisir dengan baik memberikan dasar untuk berbagai proyek data; hal ini dapat mencakup analisis data eksploratif, visualisasi data, dan tugas-tugas machine learning.

Kini tersedia: watsonx.data

Tingkatkan beban kerja AI, untuk semua data Anda, di mana saja.

Jenis pipeline data

Ada beberapa jenis utama pipeline data, masing-masing sesuai untuk tugas-tugas tertentu pada platform tertentu.

Pemrosesan batch

Pengembangan pemrosesan batch merupakan langkah penting dalam membangun infrastruktur data yang dapat diandalkan dan terukur. Pada tahun 2004, MapReduce, sebuah algoritma pemrosesan batch, dipatenkan dan kemudian diintegrasikan ke dalam sistem sumber terbuka, seperti Hadoop, CouchDB, dan MongoDB.

Seperti namanya, pemrosesan batch memuat "batch" data ke dalam repositori selama interval waktu yang ditentukan, yang biasanya dijadwalkan selama jam kerja di luar jam sibuk. Dengan cara ini, beban kerja lain tidak terpengaruh karena pekerjaan pemrosesan batch cenderung bekerja dengan volume data yang besar, yang dapat membebani sistem secara keseluruhan. Pemrosesan batch biasanya merupakan jalur data yang optimal ketika tidak ada kebutuhan mendesak untuk menganalisis kumpulan data tertentu (misalnya, akuntansi bulanan), dan ini lebih terkait dengan proses integrasi data ETL, yang merupakan singkatan dari “extract, transform, and load (ekstrak, transformasi, dan muat)."

Pekerjaan pemrosesan batch membentuk alur kerja perintah yang diurutkan, di mana output dari satu perintah menjadi input dari perintah berikutnya. Misalnya, satu perintah mungkin memulai penyerapan data, perintah berikutnya dapat memicu pemfilteran kolom tertentu, dan perintah berikutnya dapat menangani agregasi. Rangkaian perintah ini akan berlanjut hingga kualitas data benar-benar diubah dan ditulis ulang menjadi repositori data.

Data streaming

Tidak seperti pemrosesan batching, pipeline data streaming—juga dikenal sebagai arsitektur berbasis peristiwa — terus memproses peristiwa yang dihasilkan oleh berbagai sumber, seperti sensor atau interaksi pengguna dalam aplikasi. Peristiwa diproses dan dianalisis, dan kemudian disimpan dalam basis data atau dikirim ke hilir untuk dianalisis lebih lanjut.

Streaming data dimanfaatkan ketika diperlukan agar data terus diperbarui. Sebagai contoh, aplikasi atau sistem titik penjualan membutuhkan data real-time untuk memperbarui inventaris dan riwayat penjualan produk mereka; dengan begitu, penjual dapat memberi tahu konsumen apakah suatu produk tersedia atau tidak. Satu tindakan, seperti penjualan produk, dianggap sebagai "peristiwa", dan peristiwa terkait, seperti menambahkan item ke checkout, biasanya dikelompokkan bersama sebagai "topik" atau "aliran". Peristiwa ini kemudian dibawa melalui sistem pesan atau perantara pesan, seperti penawaran sumber terbuka, Apache Kafka. 

Karena peristiwa data diproses sesaat setelah terjadi, sistem pemrosesan streaming memiliki latensi yang lebih rendah daripada sistem batch, tetapi tidak dapat diandalkan seperti sistem pemrosesan batch karena pesan dapat secara tidak sengaja terlewat atau menghabiskan waktu yang lama dalam antrean. Perantara pesan membantu mengatasi masalah ini melalui pengakuan, di mana konsumen mengonfirmasi pemrosesan pesan kepada broker untuk menghapusnya dari antrean. 

Memulai dengan IBM Cloud Pak for Data

Pipeline integrasi data

Pipeline integrasi data berkonsentrasi pada penggabungan data dari berbagai sumber ke dalam satu tampilan terpadu. Pipeline ini sering kali melibatkan proses ekstrak, transformasi, dan muat (ETL) yang membersihkan, memperkaya, atau memodifikasi data mentah sebelum menyimpannya di tempat penyimpanan terpusat seperti gudang data atau data lake. Pipeline integrasi data sangat penting untuk menangani sistem yang berbeda yang menghasilkan format atau struktur yang tidak kompatibel. Misalnya, koneksi dapat ditambahkan ke Amazon S3 (Amazon Simple Storage Service)—layanan yang ditawarkan oleh Amazon Web Services (AWS) yang menyediakan penyimpanan objek melalui antarmuka layanan web.

Pipeline data cloud native

Platform data modern mencakup rangkaian produk peranti lunak cloud-first, cloud native yang memungkinkan pengumpulan, pembersihan, transformasi, dan analisis data organisasi untuk membantu meningkatkan pengambilan keputusan. Pipeline data saat ini telah menjadi semakin kompleks dan penting untuk analitik data dan membuat keputusan berbasis data. Platform data modern membangun kepercayaan pada data ini dengan menyerap, menyimpan, memproses, dan mengubahnya dengan cara yang memastikan informasi yang akurat dan tepat waktu, mengurangi silo data, memungkinkan layanan mandiri, dan meningkatkan kualitas data.

Arsitektur pipeline data

Tiga langkah inti membentuk arsitektur pipeline data. 

1. Konsumsi data: Data dikumpulkan dari berbagai sumber—termasuk platform perangkat lunak sebagai layanan (SaaS), perangkat internet-of-things (IoT), dan perangkat seluler—dan berbagai struktur data, baik data terstruktur maupun data tidak terstruktur. Dalam data streaming, sumber data mentah ini biasanya dikenal sebagai produsen, penerbit, atau pengirim. Meskipun bisnis dapat memilih untuk mengekstrak data hanya ketika siap untuk memprosesnya, tetapi merupakan praktik yang lebih baik untuk menyimpan data mentah di dalam penyedia gudang data cloud terlebih dahulu. Dengan cara ini, bisnis dapat memperbarui data historis apa pun jika mereka perlu melakukan penyesuaian pada pekerjaan pemrosesan data. Selama proses pemasukan data ini, berbagai validasi dan pemeriksaan dapat dilakukan untuk memastikan konsistensi dan keakuratan data.

2. Transformasi data: Selama langkah ini, serangkaian pekerjaan dijalankan untuk memproses data ke dalam format yang diperlukan oleh repositori data tujuan. Pekerjaan ini menanamkan otomatisasi dan tata kelola untuk alur kerja yang berulang, seperti pelaporan bisnis, memastikan bahwa data dibersihkan dan diubah secara konsisten.  Sebagai contoh, aliran data mungkin datang dalam format JSON bersarang, dan tahap transformasi data akan bertujuan untuk membuka gulungan JSON tersebut untuk mengekstrak bidang-bidang utama untuk analisis.

3. Penyimpanan data: Data yang telah ditransformasikan kemudian disimpan dalam repositori data, di mana data tersebut dapat dipaparkan ke berbagai pemangku kepentingan. Dalam data streaming, data yang diubah ini biasanya dikenal sebagai konsumen, pelanggan, atau penerima.

Pipeline data vs. pipeline ETL

Anda mungkin menemukan bahwa beberapa istilah, seperti pipeline data dan pipeline ETL, digunakan secara bergantian dalam percakapan. Namun, Anda harus memikirkan pipeline ETL sebagai subkategori pipeline data. Kedua jenis saluran pipa ini dibedakan oleh tiga fitur utama:

Pipeline ETL mengikuti urutan tertentu. Seperti yang disiratkan oleh singkatan, mereka mengekstrak data, mengubah data, lalu memuat dan menyimpan data dalam repositori data. Tidak semua alur data harus mengikuti urutan ini. Faktanya, pipeline ELT (ekstrak, muat, transformasi) telah menjadi lebih populer dengan munculnya alat bantu cloud native di mana data dapat dihasilkan dan disimpan di berbagai sumber dan platform. Meskipun konsumsi data masih terjadi terlebih dahulu dengan jenis pipeline ini, transformasi apa pun diterapkan setelah data dimuat ke dalam gudang data berbasis cloud.  
Pipeline ETL juga cenderung menyiratkan penggunaan pemrosesan batch, tetapi seperti disebutkan di atas, ruang lingkup pipa data lebih luas. Mereka juga dapat mencakup pemrosesan aliran. 
Terakhir, meskipun kecil kemungkinannya, pipeline data secara keseluruhan tidak perlu mengalami transformasi data, seperti halnya pipeline ETL. Sangat jarang melihat pipeline data yang tidak memanfaatkan transformasi untuk memfasilitasi analisis data.

Contoh penggunaan pipeline data

Ketika big data terus tumbuh, manajemen data menjadi prioritas yang terus meningkat. Sementara pipeline data melayani berbagai fungsi, berikut ini adalah untuk aplikasi bisnis:

Analisis data eksplorasi: Ilmuwan data menggunakan analisis data eksplorasi (EDA) untuk menganalisis dan menyelidiki kumpulan data dan meringkas karakteristik utamanya, sering kali menggunakan metode visualisasi data. Hal ini membantu menentukan cara terbaik memanipulasi sumber data untuk mendapatkan jawaban yang dibutuhkan, sehingga memudahkan ilmuwan data menemukan pola, menemukan anomali, menguji hipotesis, atau memeriksa asumsi.
Visualisasi data: Untuk merepresentasikan data melalui grafik umum, visualisasi data seperti bagan, plot, infografis, dan bahkan dapat membuat animasi. Tampilan visual informasi ini menyampaikan hubungan data yang kompleks dan wawasan berbasis data dengan cara yang mudah dipahami.
Machine learning: Sebuah cabang dari kecerdasan buatan (AI) dan ilmu komputer, machine learning berfokus pada penggunaan data dan algoritma untuk meniru cara manusia belajar, yang secara bertahap meningkatkan keakuratannya. Melalui penggunaan metode statistik, algoritma dilatih untuk membuat klasifikasi atau prediksi, yang mengungkap wawasan utama dalam proyek penambangan data.
Observabilitas data: Untuk memverifikasi keakuratan dan keamanan data yang digunakan, observabilitas data menggunakan berbagai alat untuk memantau, melacak, dan memperingatkan perkiraan kejadian dan anomali.

Solusi IBM

IBM DataStage

IBM DataStage adalah alat integrasi data terdepan di industri yang membantu merancang, mengembangkan, dan menjalankan pekerjaan yang memindahkan dan mentransformasikan data.

Jelajahi IBM DataStage

IBM Data Replication

IBM Data Replication adalah peranti lunak sinkronisasi data yang menjaga sinkronisasi beberapa penyimpanan data secara hampir real-time. IBM Data Replication adalah solusi berdampak rendah, hanya melacak perubahan data yang ditangkap oleh log.

Jelajahi IBM Data Replication

IBM Databand

IBM Databand adalah perangkat lunak observabilitas untuk pipeline dan gudang data yang secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, peringatan triase, dan memantau kesehatan dan keandalan grafik asiklik terarah (DAG) Apache Airflow.

Jelajahi IBM Databand

IBM watsonx.data

IBM watsonx.data adalah penyimpanan data yang sesuai tujuan yang dibangun di atas arsitektur data lakehouse terbuka untuk mengukur beban kerja analitik dan AI, untuk semua data Anda, di mana pun berada.

Jelajahi IBM watsonx.data

Sumber daya

Buat landasan data yang kuat untuk AI

Baca smartpaper tentang cara membuat landasan data yang kuat untuk AI dengan berfokus pada tiga area manajemen data utama: akses, tata kelola, serta privasi dan kepatuhan.

Bank Negara India

Pelajari bagaimana State Bank of India menggunakan beberapa solusi IBM, bersama dengan metodologi IBM Garage™, untuk mengembangkan platform perbankan online yang komprehensif.

Ambil langkah selanjutnya

IBM DataStage adalah alat integrasi data terdepan di industri yang membantu Anda merancang, mengembangkan, dan menjalankan pekerjaan yang memindahkan dan mengubah data. Pada intinya, alat DataStage mendukung pola ekstrak, ubah, dan muat (ETL) serta ekstrak, muat, dan ubah (ELT).

Jelajahi DataStage

Coba gratis