ELT, yang merupakan singkatan dari "Extract, Load, Transform" (Ekstrak, Muat, Ubah) adalah jenis lain dari proses integrasi data, mirip dengan ETL, "Extract, Transform, Load" (Ekstrak, Ubah, Muat). Proses ini memindahkan data mentah dari sistem sumber ke sumber daya tujuan, seperti gudang data.
Meskipun serupa dengan ETL, ELT merupakan pendekatan yang berbeda secara mendasar terhadap pra-pemrosesan data yang baru-baru ini diadopsi seiring transisi ke lingkungan cloud.
ELT terdiri dari tiga tahap utama; Ekstrak, Muat, dan Ubah. Masing-masing tahap ini diperinci di bawah.
Selama ekstraksi data, data mentah disalin atau diekspor dari lokasi sumber ke area penahapan. Kumpulan data dapat terdiri dari berbagai jenis data dan berasal dari hampir semua sumber terstruktur maupun tidak terstruktur, termasuk tetapi tidak terbatas pada:
Meskipun demikian, ini lebih sering digunakan dengan data yang tidak terstruktur.
Pada langkah ini, data yang telah diubah dipindahkan dari area staging ke area penyimpanan data, seperti gudang data atau data lake.
Bagi sebagian besar organisasi, proses pemuatan data dilakukan secara otomatis, ter definisi dengan baik, berkelanjutan, dan didorong oleh batch. Biasanya, ELT berlangsung selama jam kerja ketika lalu lintas pada sistem sumber dan gudang data mencapai puncaknya dan konsumen menunggu untuk menggunakan data untuk analisis atau sebaliknya.
Pada tahap ini, pendekatan schema-on-write digunakan, yang menerapkan skema untuk data menggunakan SQL, atau mengubah data, sebelum analisis. Tahap ini dapat melibatkan hal-hal berikut:
Proses ELT dapat dibingungkan dengan proses serupa yang dikenal dengan akronim yang hampir sama. Namun, ada beberapa perbedaan mencolok antara ELT dan ETL, yang merupakan singkatan dari ekstrak (ekstraksi), transform (transformasi), dan load (muat). Ini adalah proses integrasi data yang menggabungkan data dari beberapa sumber data ke dalam satu penyimpanan data yang konsisten yang dimuat ke dalam gudang data atau sistem target lainnya. Alat ETL tradisional dirancang untuk membuat pergudangan data guna mendukung aplikasi Business Intelligence (BI) dan Artificial Intelligence (AI).
Perbedaan yang jelas adalah proses ELT melakukan fungsi Muat (Load) sebelum fungsi Ubah (Transform)—kebalikan dari langkah kedua dan ketiga dari proses ETL. ELT menyalin atau mengekspor data dari lokasi sumber, tetapi alih-alih memindahkannya ke area staging untuk pengubahan, ELT memuat data mentah langsung ke penyimpanan data target untuk diubah sesuai kebutuhan. ELT tidak mengubah data apa pun saat transit.
Namun, urutan langkah bukanlah satu-satunya perbedaan. Di ELT, penyimpanan data target dapat berupa gudang data, tetapi lebih sering berupa data lake, yang merupakan penyimpanan pusat besar yang dirancang untuk menyimpan data terstruktur dan tidak terstruktur dalam skala besar.
Data lake dikelola menggunakan platform big data (seperti Apache Hadoop) atau sistem manajemen data NoSQL terdistribusi. Mereka dapat mendukung intelejen bisnis, tetapi lebih sering, mereka dibuat untuk mendukung kecerdasan buatan, machine learning, analisis prediktif, dan aplikasi yang digerakkan oleh data real time dan event streams.
Ada perbedaan lain antara ETL dan ELT juga. Sebagai contoh, karena ETL mengubah data sebelum memindahkannya ke repositori pusat, ETL dapat membuat kepatuhan privasi data menjadi lebih sederhana, atau lebih sistematis, daripada ELT (misalnya, Jika analis tidak mengubah data sensitif sebelum perlu menggunakannya, data tersebut dapat tetap berada tanpa kedok di dalam data lake). Namun, para ilmuwan data mungkin lebih memilih ELT, yang memungkinkan mereka bermain di "sandbox" data mentah dan melakukan pengubahan data mereka sendiri yang disesuaikan dengan aplikasi tertentu. Namun, dalam banyak kasus, pilihan antara ETL dan ELT akan bergantung pada pilihan antara sumber daya dan kebutuhan bisnis yang tersedia.
ELT memberikan beberapa keuntungan bagi pengguna yang mengintegrasikan proses ke dalam alur kerja mereka. Mari kita lihat beberapa manfaat penting:
Ketika data streaming dalam jumlah besar dihasilkan, ELT memungkinkan data tersebut dimuat dengan segera, dan mengubah data setelah mencapai tujuannya. Hal ini mencegah perlambatan yang sering terjadi jika pengubahan terjadi sebelum fungsi Muat, seperti dalam ETL. Seringkali, keputusan perlu dibuat sehubungan dengan data ini, dan penundaan tidak dapat diterima. Contohnya adalah pasar saham, yang menghasilkan sejumlah besar data yang dikonsumsi secara real-time. Dalam skenario seperti ini, ELT merupakan solusi pilihan karena pengubahan terjadi setelah data mencapai tujuannya.
Karena data diubah ketika tiba di tempat tujuan, ELT memungkinkan penerima data untuk mengontrol manipulasi data. Dengan ELT, pemisahan tahap pengubahan dan pemuatan memastikan bahwa kesalahan pengkodean atau kesalahan lain dalam tahap transformasi tidak memengaruhi tahap lainnya.
ELT memanfaatkan kekuatan dan ukuran gudang data untuk memungkinkan pengubahan, atau komputasi yang dapat diskalakan, dalam skala besar. Gudang data tujuan dapat menambah atau mengurangi node sesuai kebutuhan, terutama dalam skenario cloud di mana terdapat beberapa node dalam setiap klaster, dan beberapa klaster dapat digunakan. Hal ini memungkinkan fleksibilitas dan skalabilitas sesuai permintaan.
ELT membutuhkan server yang kurang kuat untuk transformasi data dan memanfaatkan sumber daya yang sudah ada di gudang. Hal ini menghasilkan penghematan biaya dan efisiensi sumber daya.
ELT memungkinkan penggunaan repositori tujuan pilihan, untuk fleksibilitas biaya dan sumber daya. Gudang data menggunakan arsitektur MPP (Massively Parallel Processing), termasuk penyimpanan volume data berbasis memori columnar. Proses data lake yang menerapkan skema, atau model transformasi, segera setelah data diterima (disebut juga "schema-on-read") juga didukung. Proses yang efisien ini memberikan fleksibilitas untuk sejumlah besar data.
Operasi berkelanjutan sangat ideal untuk lingkungan apa pun yang membutuhkan akses cepat ke data. ELT sangat cocok untuk data yang digunakan dalam lingkungan cloud yang sering kali menyertakan aplikasi yang diakses berdasarkan permintaan secara terus menerus. Demikian juga, transformasi ELT cloud-native memberikan skalabilitas dan fleksibilitas yang disebutkan di atas.
Sebuah organisasi dapat memilih untuk bertransisi dari arsitektur ETL ke ELT. Alasan transisi dapat berupa perubahan dalam penggunaan produk atau layanannya sehingga diperlukan respons dan interaksi real time, atau jumlah data telah berkembang secara eksponensial dan transformasi menunda tahap Muat karena tuntutan pemrosesan volume tinggi pada infrastruktur. Sebuah organisasi juga dapat memilih untuk bertransisi dari ETL ke ELT jika organisasi tersebut telah berpindah ke cloud dan ingin melepaskan pemrosesan atau menggunakan data di lokasi tujuan lebih cepat.
Dalam skenario transisi, realistis untuk mengharapkan adanya tantangan. Pertama dan terpenting, logika dan kode yang sama sekali berbeda digunakan dalam ELT vs ETL. Hal ini dapat memerlukan konfigurasi ulang yang menyeluruh dan mungkin infrastruktur baru atau penyedia baru dengan infrastruktur di cloud. Selain itu, dengan ELT, data mentah dikirim ke gudang tujuan. Oleh karena itu, keamanan merupakan pertimbangan dan harus diterapkan untuk menjaga data tetap aman.
ELT bukanlah teknologi baru. Tabel staging sebelumnya digunakan untuk memindahkan data ke dalam gudang untuk diproses dan diubah, sering kali menggunakan skrip SQL. Skrip SQL di-hardcode, dan oleh karena itu berisiko terhadap kemungkinan coding error. Dengan penggunaan SQL, pelanggan harus memilih antara eksekusi gudang native menggunakan skrip SQL dan pemrograman deklaratif, alias penulisan deklaratif. Penulisan deklaratif memberikan manfaat dari lingkungan gudang data berbasis cloud yang lebih modern melalui pembuatan kode yang menjelaskan apa yang harus dicapai oleh program daripada bagaimana program akan mencapainya. Proses ini mencegah kesalahan pengkodean yang melekat pada proses lain, terutama ketika transformasi terjadi sebelum fungsi Muat.
ELT biasanya digunakan dalam lingkungan penggunaan data volume tinggi atau real-time. Contoh spesifiknya adalah:
Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.
Temukan IBM Databand, perangkat lunak observabilitas untuk saluran data. Secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan membuat alur kerja untuk memperbaiki masalah kualitas data.
Buat pipeline data yang tangguh, berkinerja tinggi, dan hemat biaya untuk kebutuhan inisiatif AI generatif Anda, analitik real-time, modernisasi gudang, dan operasional dengan solusi integrasi data IBM.