Apa itu ekstrak, muat, ubah (ELT)?

Pemandangan udara lokasi konstruksi Barangaroo

Apa itu ELT?

ELT, yang merupakan singkatan dari "Extract, Load, Transform" (Ekstrak, Muat, Ubah) adalah jenis lain dari proses integrasi data, mirip dengan ETL, "Extract, Transform, Load" (Ekstrak, Ubah, Muat). Proses ini memindahkan data mentah dari sistem sumber ke sumber daya tujuan, seperti gudang data.

Meskipun serupa dengan ETL, ELT merupakan pendekatan yang berbeda secara mendasar terhadap pra-pemrosesan data yang baru-baru ini diadopsi seiring transisi ke lingkungan cloud.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Cara kerja ELT

ELT terdiri dari tiga tahap utama; Ekstrak, Muat, dan Ubah. Masing-masing tahap ini diperinci di bawah.

Ekstrak

Selama ekstraksi data, data mentah disalin atau diekspor dari lokasi sumber ke area penahapan. Kumpulan data dapat terdiri dari berbagai jenis data dan berasal dari hampir semua sumber terstruktur maupun tidak terstruktur, termasuk tetapi tidak terbatas pada:

  • Server SQL atau NoSQL
  • Sistem CRM dan ERP
  • File teks dan dokumen
  • Email
  • Halaman web

Meskipun demikian, ini lebih sering digunakan dengan data yang tidak terstruktur.

Muat

Pada langkah ini, data yang telah diubah dipindahkan dari area staging ke area penyimpanan data, seperti gudang data atau data lake.

Bagi sebagian besar organisasi, proses pemuatan data dilakukan secara otomatis, ter definisi dengan baik, berkelanjutan, dan didorong oleh batch. Biasanya, ELT berlangsung selama jam kerja ketika lalu lintas pada sistem sumber dan gudang data mencapai puncaknya dan konsumen menunggu untuk menggunakan data untuk analisis atau sebaliknya.

Transformasi

Pada tahap ini, pendekatan schema-on-write digunakan, yang menerapkan skema untuk data menggunakan SQL, atau mengubah data, sebelum analisis. Tahap ini dapat melibatkan hal-hal berikut:

  • Memfilter, membersihkan, menghilangkan duplikasi, memvalidasi, dan mengautentikasi data.
  • Melakukan perhitungan, terjemahan, analisis data atau ringkasan berdasarkan data mentah. Hal ini dapat mencakup segala hal mulai dari mengubah judul baris dan kolom untuk konsistensi hingga mengonversi mata uang atau unit pengukuran serta mengedit string teks dan menambahkan atau merata-rata nilai—apa pun yang diperlukan agar sesuai dengan tujuan BI atau analitik spesifik organisasi.
  • Menghapus, mengenkripsi, menyembunyikan, atau melindungi data yang diatur oleh peraturan pemerintah atau industri.
  • Memformat data menjadi tabel atau tabel gabungan berdasarkan skema yang diterapkan di gudang.
Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

ETL vs ELT

Proses ELT dapat dibingungkan dengan proses serupa yang dikenal dengan akronim yang hampir sama. Namun, ada beberapa perbedaan mencolok antara ELT dan ETL, yang merupakan singkatan dari ekstrak (ekstraksi), transform (transformasi), dan load (muat). Ini adalah proses integrasi data yang menggabungkan data dari beberapa sumber data ke dalam satu penyimpanan data yang konsisten yang dimuat ke dalam gudang data atau sistem target lainnya. Alat ETL tradisional dirancang untuk membuat pergudangan data guna mendukung aplikasi Business Intelligence (BI) dan Artificial Intelligence (AI).

Apa perbedaan ETL dan ELT?

Perbedaan yang jelas adalah proses ELT melakukan fungsi Muat (Load) sebelum fungsi Ubah (Transform)—kebalikan dari langkah kedua dan ketiga dari proses ETL. ELT menyalin atau mengekspor data dari lokasi sumber, tetapi alih-alih memindahkannya ke area staging untuk pengubahan, ELT memuat data mentah langsung ke penyimpanan data target untuk diubah sesuai kebutuhan. ELT tidak mengubah data apa pun saat transit.

Namun, urutan langkah bukanlah satu-satunya perbedaan. Di ELT, penyimpanan data target dapat berupa gudang data, tetapi lebih sering berupa data lake, yang merupakan penyimpanan pusat besar yang dirancang untuk menyimpan data terstruktur dan tidak terstruktur dalam skala besar.

Data lake dikelola menggunakan platform big data (seperti Apache Hadoop) atau sistem manajemen data NoSQL terdistribusi. Mereka dapat mendukung intelejen bisnis, tetapi lebih sering, mereka dibuat untuk mendukung kecerdasan buatan, machine learning, analisis prediktif, dan aplikasi yang digerakkan oleh data real time dan event streams.

Ada perbedaan lain antara ETL dan ELT juga. Sebagai contoh, karena ETL mengubah data sebelum memindahkannya ke repositori pusat, ETL dapat membuat kepatuhan privasi data menjadi lebih sederhana, atau lebih sistematis, daripada ELT (misalnya, Jika analis tidak mengubah data sensitif sebelum perlu menggunakannya, data tersebut dapat tetap berada tanpa kedok di dalam data lake). Namun, para ilmuwan data mungkin lebih memilih ELT, yang memungkinkan mereka bermain di "sandbox" data mentah dan melakukan pengubahan data mereka sendiri yang disesuaikan dengan aplikasi tertentu. Namun, dalam banyak kasus, pilihan antara ETL dan ELT akan bergantung pada pilihan antara sumber daya dan kebutuhan bisnis yang tersedia.

Manfaat ELT

ELT memberikan beberapa keuntungan bagi pengguna yang mengintegrasikan proses ke dalam alur kerja mereka. Mari kita lihat beberapa manfaat penting:

Memindahkan data ke tujuan lebih cepat untuk ketersediaan yang lebih cepat

Ketika data streaming dalam jumlah besar dihasilkan, ELT memungkinkan data tersebut dimuat dengan segera, dan mengubah data setelah mencapai tujuannya. Hal ini mencegah perlambatan yang sering terjadi jika pengubahan terjadi sebelum fungsi Muat, seperti dalam ETL. Seringkali, keputusan perlu dibuat sehubungan dengan data ini, dan penundaan tidak dapat diterima. Contohnya adalah pasar saham, yang menghasilkan sejumlah besar data yang dikonsumsi secara real-time. Dalam skenario seperti ini, ELT merupakan solusi pilihan karena pengubahan terjadi setelah data mencapai tujuannya.

Memisahkan masalah

Karena data diubah ketika tiba di tempat tujuan, ELT memungkinkan penerima data untuk mengontrol manipulasi data. Dengan ELT, pemisahan tahap pengubahan dan pemuatan memastikan bahwa kesalahan pengkodean atau kesalahan lain dalam tahap transformasi tidak memengaruhi tahap lainnya.

Menghindari masalah penskalaan server

ELT memanfaatkan kekuatan dan ukuran gudang data untuk memungkinkan pengubahan, atau komputasi yang dapat diskalakan, dalam skala besar. Gudang data tujuan dapat menambah atau mengurangi node sesuai kebutuhan, terutama dalam skenario cloud di mana terdapat beberapa node dalam setiap klaster, dan beberapa klaster dapat digunakan. Hal ini memungkinkan fleksibilitas dan skalabilitas sesuai permintaan.

Hemat biaya

ELT membutuhkan server yang kurang kuat untuk transformasi data dan memanfaatkan sumber daya yang sudah ada di gudang. Hal ini menghasilkan penghematan biaya dan efisiensi sumber daya.

Fleksibilitas

ELT memungkinkan penggunaan repositori tujuan pilihan, untuk fleksibilitas biaya dan sumber daya. Gudang data menggunakan arsitektur MPP (Massively Parallel Processing), termasuk penyimpanan volume data berbasis memori columnar. Proses data lake yang menerapkan skema, atau model transformasi, segera setelah data diterima (disebut juga "schema-on-read") juga didukung. Proses yang efisien ini memberikan fleksibilitas untuk sejumlah besar data.

Operasi berkelanjutan

Operasi berkelanjutan sangat ideal untuk lingkungan apa pun yang membutuhkan akses cepat ke data. ELT sangat cocok untuk data yang digunakan dalam lingkungan cloud yang sering kali menyertakan aplikasi yang diakses berdasarkan permintaan secara terus menerus. Demikian juga, transformasi ELT cloud-native memberikan skalabilitas dan fleksibilitas yang disebutkan di atas.

Tantangan yang terkait dengan perpindahan dari arsitektur ETL ke ELT

Sebuah organisasi dapat memilih untuk bertransisi dari arsitektur ETL ke ELT. Alasan transisi dapat berupa perubahan dalam penggunaan produk atau layanannya sehingga diperlukan respons dan interaksi real time, atau jumlah data telah berkembang secara eksponensial dan transformasi menunda tahap Muat karena tuntutan pemrosesan volume tinggi pada infrastruktur. Sebuah organisasi juga dapat memilih untuk bertransisi dari ETL ke ELT jika organisasi tersebut telah berpindah ke cloud dan ingin melepaskan pemrosesan atau menggunakan data di lokasi tujuan lebih cepat.

Dalam skenario transisi, realistis untuk mengharapkan adanya tantangan. Pertama dan terpenting, logika dan kode yang sama sekali berbeda digunakan dalam ELT vs ETL. Hal ini dapat memerlukan konfigurasi ulang yang menyeluruh dan mungkin infrastruktur baru atau penyedia baru dengan infrastruktur di cloud. Selain itu, dengan ELT, data mentah dikirim ke gudang tujuan. Oleh karena itu, keamanan merupakan pertimbangan dan harus diterapkan untuk menjaga data tetap aman.

Masa lalu dan masa depan ELT

ELT bukanlah teknologi baru. Tabel staging sebelumnya digunakan untuk memindahkan data ke dalam gudang untuk diproses dan diubah, sering kali menggunakan skrip SQL. Skrip SQL di-hardcode, dan oleh karena itu berisiko terhadap kemungkinan coding error. Dengan penggunaan SQL, pelanggan harus memilih antara eksekusi gudang native menggunakan skrip SQL dan pemrograman deklaratif, alias penulisan deklaratif. Penulisan deklaratif memberikan manfaat dari lingkungan gudang data berbasis cloud yang lebih modern melalui pembuatan kode yang menjelaskan apa yang harus dicapai oleh program daripada bagaimana program akan mencapainya. Proses ini mencegah kesalahan pengkodean yang melekat pada proses lain, terutama ketika transformasi terjadi sebelum fungsi Muat.

Contoh penggunaan

ELT biasanya digunakan dalam lingkungan penggunaan data volume tinggi atau real-time. Contoh spesifiknya adalah:

  • Organisasi yang membutuhkan akses instan. Contohnya adalah bursa saham atau distributor grosir berskala besar untuk saham, komponen industri, dan bahan lainnya, yang membutuhkan akses real-time ke data terkini untuk akses langsung ke intelijen bisnis.
  • Organisasi dengan volume data yang sangat besar. Contohnya termasuk sistem meteorologi seperti layanan cuaca yang mengumpulkan, menyusun, dan menggunakan data dalam jumlah besar secara teratur. Perusahaan dengan volume transaksi besar juga bisa termasuk dalam kategori ini. Organisasi seperti laboratorium astronomi dengan teleskop yang sangat besar menghasilkan sejumlah besar data yang perlu disusun dan dianalisis. Mungkin ada tumpang tindih di antara kedua kategori tersebut, karena ada banyak industri yang memproduksi dan menggunakan data dalam jumlah besar dan membutuhkan akses real time ke data tersebut.
Solusi terkait
IBM StreamSets

Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.

Jelajahi StreamSets
IBM Databand

Temukan IBM Databand, perangkat lunak observabilitas untuk saluran data. Secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan membuat alur kerja untuk memperbaiki masalah kualitas data.

Jelajahi Databand
Solusi integrasi data

Buat pipeline data yang tangguh, berkinerja tinggi, dan hemat biaya untuk kebutuhan inisiatif AI generatif Anda, analitik real-time, modernisasi gudang, dan operasional dengan solusi integrasi data IBM.

Temukan solusi integrasi data
Ambil langkah selanjutnya

Temukan IBM DataStage, alat ETL (Extract, Transform, Load) yang menawarkan antarmuka visual untuk merancang, mengembangkan, dan menerapkan pipeline data. Alat ini tersedia sebagai SaaS terkelola di IBM Cloud untuk hosting mandiri dan sebagai add-on pada IBM Cloud Pak for Data.

Jelajahi DataStage Jelajahi layanan analitik