Apa itu data replication?

Wanita bekerja di laptop sambil duduk di kantor sendirian

Apa itu replikasi data?

Replikasi data adalah proses pembuatan dan pemeliharaan beberapa salinan data yang sama di lokasi yang berbeda sebagai cara untuk memastikan ketersediaan, keandalan, dan ketahanan data di seluruh organisasi.

Dengan mereplikasi data dari lokasi sumber ke satu atau lebih lokasi target, replika memberi pengguna global organisasi akses siap ke data yang mereka butuhkan tanpa mengalami masalah latensi.

Ketika beberapa salinan dari data yang sama ada di lokasi yang berbeda, meskipun satu salinan tidak dapat diakses karena bencana, pemadaman listrik, atau alasan lainnya, salinan lain dapat digunakan sebagai cadangan. Redundansi ini membantu organisasi meminimalkan waktu henti dan kehilangan data serta meningkatkan keberlangsungan bisnis.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Cara kerja replikasi data

Replikasi data dapat dilakukan melalui jaringan area penyimpanan, jaringan area lokal, atau jaringan area luas lokal, serta ke cloud. Replikasi dapat terjadi secara sinkron atau asinkron, yang mengacu pada bagaimana operasi tulis dikelola.

  • Replikasi data sinkron berarti data secara konstan disalin ke server utama dan semua server replika secara bersamaan.

  • Replikasi data asinkron berarti bahwa data pertama-tama disalin ke server utama dan baru kemudian disalin ke server replika secara berkelompok.

Meskipun replikasi sinkron memastikan tidak ada data yang hilang, replikasi asinkron membutuhkan bandwidth yang jauh lebih sedikit dan lebih murah.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Manfaat replikasi data

Dengan menggunakan strategi replikasi data yang efektif, organisasi dapat memperoleh manfaat dengan cara berikut:

Skalabilitas yang Ditingkatkan

Replikasi data dapat digunakan sebagai bagian dari strategi penskalaan untuk mengakomodasi peningkatan lalu lintas dan tuntutan beban kerja. Replikasi membangun skalabilitas dengan mendistribusikan data ke beberapa node, yang memungkinkan daya pemrosesan lebih besar dan kinerja server lebih baik.

Pemulihan bencana yang lebih cepat

Memelihara salinan data di lokasi yang berbeda membantu meminimalkan kehilangan data dan waktu henti jika terjadi pemadaman listrik, serangan keamanan siber, atau bencana alam. Kemampuan untuk memulihkan dari replika jarak jauh membantu memastikan kekokohan sistem, keandalan, dan keamanan organisasi.

Latensi berkurang

Database yang terdistribusi secara global berarti harus menempuh jarak yang lebih pendek ke pengguna akhir. Hal ini mengurangi latensi dan meningkatkan kecepatan dan kinerja server, yang sangat penting untuk beban kerja berbasis real-time dalam sistem game atau rekomendasi, atau sistem yang membutuhkan banyak sumber daya seperti alat desain.

Toleransi kesalahan yang ditingkatkan

Replikasi meningkatkan toleransi kesalahan dengan menyediakan redundansi. Jika salah satu salinan data rusak atau hilang karena kegagalan, sistem dapat kembali ke salah satu replika lainnya. Ini membantu mencegah kehilangan data dan memastikan operasi yang tidak terganggu.

Kinerja yang dioptimalkan

Dengan mendistribusikan permintaan akses data ke beberapa server atau lokasi, replikasi data dapat menghasilkan kinerja server yang optimal dengan mengurangi beban pada masing-masing server. Penyeimbangan beban ini dapat membantu mengelola permintaan volume tinggi dan memastikan pengalaman pengguna yang lebih responsif.

Jenis-jenis replikasi data

Replikasi data dapat diklasifikasikan ke dalam berbagai jenis berdasarkan metode, tujuan, dan karakteristik proses replikasi data. Tiga jenis utama replikasi data adalah replikasi transaksional, replikasi rekam jepret, dan replikasi gabungan.

Replikasi transaksi terdiri dari database yang disalin secara keseluruhan dari server primer (penerbit) dan dikirim ke server sekunder (pelanggan). Setiap perubahan data diperbarui secara konsisten dan terus menerus. Karena data direplikasi secara real time dan dikirim dari database primer ke server sekunder sesuai urutan kemunculannya, konsistensi transaksional terjamin. Jenis replikasi database ini umumnya digunakan di lingkungan server-ke-server.

Dengan replikasi rekam jepret, rekam jepret database didistribusikan dari server primer ke server sekunder. Alih-alih pembaruan berkelanjutan, data dikirim seperti yang ada pada saat rekam jepret. Jenis replikasi database ini direkomendasikan ketika tidak ada banyak perubahan data atau ketika pertama kali memulai sinkronisasi antara penerbit dan pelanggan. Meskipun tidak berguna untuk pencadangan data karena tidak memantau perubahan data, replikasi snapshot dapat membantu pemulihan jika terjadi penghapusan yang tidak disengaja.

Replikasi gabungan terdiri dari dua database yang digabungkan menjadi satu database. Akibatnya, setiap perubahan data dapat diperbarui dari penerbit ke pelanggan. Ini adalah jenis replikasi database yang kompleks karena kedua belah pihak (server primer dan server sekunder) dapat membuat perubahan pada data. Jenis replikasi ini hanya direkomendasikan untuk digunakan di lingkungan server-ke-klien.

Skema replikasi data

Skema replikasi adalah operasi dan tugas yang diperlukan untuk melakukan replikasi data. Tiga skema replikasi data utama adalah replikasi penuh, replikasi parsial, dan tanpa replikasi.

Dengan replikasi penuh, database utama disalin keseluruhannya ke setiap situs dalam sistem terdistribusi. Skema distribusi global ini memberikan redundansi database yang tinggi, mengurangi latensi, dan eksekusi kueri yang lebih cepat. Kelemahan dari replikasi penuh adalah sulitnya mencapai konkurensi dan proses pembaruan lambat.

Dalam skema replikasi parsial, beberapa bagian dari database direplikasi di beberapa atau semua situs, biasanya data yang baru saja diperbarui. Replikasi parsial memungkinkan untuk memprioritaskan data mana yang penting dan harus direplikasi, serta mendistribusikan sumber daya sesuai dengan kebutuhan lapangan.

Tidak ada replikasi adalah skema di mana semua data disimpan di satu situs saja. Hal ini memungkinkan pemulihan data dengan mudah dan mencapai konkurensi. Kerugian dari tidak adanya replikasi adalah berdampak negatif pada ketersediaan dan juga memperlambat eksekusi kueri.

Teknik replikasi data

Teknik replikasi data mengacu pada metode dan mekanisme yang digunakan untuk mereplikasi data dari sumber utama ke satu atau lebih sistem atau lokasi target. Teknik replikasi data yang paling banyak digunakan adalah replikasi tabel penuh, replikasi berbasis kunci, dan replikasi berbasis log.

Dengan replikasi tabel penuh, semua data disalin dari sumber data ke tujuan, termasuk semua data baru dan yang sudah ada. Teknik ini direkomendasikan jika catatan dihapus secara teratur atau jika teknik lain secara teknis tidak mungkin. Karena ukuran kumpulan data, replikasi tabel penuh memang membutuhkan lebih banyak pemrosesan dan sumber daya jaringan, serta lebih mahal.

Dalam replikasi inkremental berbasis kunci, hanya data baru yang telah ditambahkan sejak pembaruan sebelumnya yang direplikasi. Teknik ini lebih efisien karena lebih sedikit baris yang disalin. Salah satu kelemahan dari replikasi inkremental berbasis kunci adalah tidak memungkinkan replikasi data dari pembaruan sebelumnya yang telah dihapus.

Replikasi berbasis log menangkap perubahan yang dilakukan pada data di sumber data dengan memantau catatan log database (File log atau ChangeLog). Perubahan ini kemudian direplikasi ke sistem target dan hanya berlaku untuk sumber database yang didukung. Replikasi berbasis log direkomendasikan ketika struktur database sumber bersifat statis karena jika tidak, hal ini dapat menjadi proses yang sangat boros sumber daya.

Contoh penggunaan replikasi data

Replikasi data adalah teknik serbaguna yang berguna dalam berbagai industri dan skenario untuk meningkatkan ketersediaan data, toleransi kesalahan, dan kinerja. Beberapa contoh penggunaan replikasi data yang paling umum meliputi:

  • Meningkatkan ketersediaan dan failover: Replikasi data biasanya digunakan untuk mempertahankan salinan data penting yang berlebihan. Jika terjadi kegagalan perangkat keras atau sistem, aplikasi dapat beralih ke replika, sehingga meminimalkan waktu henti dan kehilangan data.

  • Memperkuat posisipemulihan bencana (DR): Dengan mereplikasi data ke lokasi yang berbeda, organisasi dapat memastikan bahwa data dipertahankan selama bencana alam, kebakaran, atau peristiwa bencana lainnya yang memengaruhi pusat data utama.

  • Meningkatkan kinerja melalui penyeimbangan beban: Mendistribusikan permintaan baca di beberapa replika database membantu menyeimbangkan beban pada sistem utama, sehingga memastikan kinerja optimal selama penggunaan puncak.

  • Mengurangi latensi untuk tenaga kerja global: Organisasi yang memiliki banyak kantor cabang di sejumlah benua dapat mereplikasi data ke pusat data yang berlokasi lebih dekat dengan setiap pengguna. Ini mengurangi latensi dan meningkatkan pengalaman pengguna.

  • Meningkatkan kecerdasan bisnis dan machine learning: Dengan menyinkronkan pelaporan intelijen bisnis berbasis cloud dan memungkinkan perpindahan data dari berbagai sumber data ke dalam penyimpanan data, termasuk gudang data atau danau data, replikasi data mendukung analisis tingkat lanjut.

  • Meningkatkan akses ke data layanan kesehatan: Mereplikasi catatan kesehatan elektronik (EHR) dan data pasien memberikan akses data cepat ke informasi pasien yang penting kepada para profesional perawatan kesehatan sambil mempertahankan redundansi data.

  • Game dan multiplayer online: Mereplikasi data game dan informasi status di seluruh server game membantu mendukung game multiplayer online, memastikan sinkronisasi dan pengalaman pemain yang konsisten.

Risiko replikasi data

Ketika menerapkan strategi replikasi data, meningkatnya kompleksitas sistem data dan meningkatnya jarak fisik antar server dalam suatu sistem menimbulkan beberapa risiko, termasuk:

Data tidak konsisten

Alat replikasi data harus memastikan bahwa data tetap konsisten di semua replika. Penundaan replikasi, masalah jaringan, atau konflik dalam pembaruan bersamaan dapat menyebabkan skema data dan anomali profil data, seperti jumlah nol, perubahan jenis, dan arah kurva.

Kehilangan data

Meskipun replikasi data sering digunakan untuk cadangan dan pemulihan bencana, tidak semua strategi replikasi memberikan perlindungan datareal-time. Jika ada jeda antara perubahan data dan replikasi mereka selama kegagalan, kehilangan data dapat terjadi.

Penundaan latensi

Mereplikasi data melalui jaringan dapat memperkenalkan latensi dan menghabiskan bandwidth. Latensi jaringan yang tinggi atau bandwidth terbatas dapat menyebabkan penundaan replikasi, mempengaruhi ketepatan waktu pembaruan data.

Masalah keamanan data

Mereplikasi data ke beberapa lokasi dapat menimbulkan risiko keamanan. Organisasi harus memastikan alat replikasi data yang digunakan melindungi data secara memadai selama replikasi dan saat istirahat di semua lokasi target.

Kompleksitas kepatuhan

Organisasi yang beroperasi di industri yang diatur harus memastikan bahwa praktik replikasi datanya mematuhi peraturan khusus industri dan undang-undang privasi data, yang dapat menambah kerumitan pada strategi replikasi.

Manajemen replikasi data

Dengan menerapkan sistem manajemen data untuk mengawasi dan memantau proses replikasi data, perusahaan dapat mengurangi risiko secara signifikan. Platform observabilitas data berbasis perangkat lunak sebagai layanan (SaaS) adalah salah satu sistem yang dapat membantu memastikan:

  • Data berhasil direplikasi ke instance lain, termasuk instance cloud
  • Pipeline replikasi dan migrasi berjalan seperti yang diharapkan
  • Pipeline yang rusak atau volume data yang tidak standar segera diberitahukan
  • Data dikirimkan tepat waktu
  • Data yang dikirimkan dapat diandalkan dan dipercaya untuk digunakan dalam analitik

Dengan memantau pipeline data yang terlibat dalam proses replikasi, teknisi DataOps dapat memastikan semua data yang disebarkan melalui pipeline tersebut akurat, lengkap, dan dapat diandalkan. Ini memastikan data yang direplikasi ke setiap instance dapat digunakan dengan andal oleh para pemangku kepentingan. Dalam hal pemantauan, platform observabilitas SaaS yang efektif adalah:

  • Granular—menunjukkan di mana masalahnya dengan spesifik
  • Persisten—mengikuti silsilah untuk memahami di mana kesalahan dimulai
  • Otomatis—mengurangi kesalahan manual dan memungkinkan penggunaan ambang batas
  • Di mana-mana — Memberikan cakupan pipeline menyeluruh
  • Tepat waktu—memungkinkan menangkap kesalahan tepat waktu sebelum berdampak

Pelacakan pipeline memungkinkan pemecahan masalah secara sistematis, sehingga setiap kesalahan dapat diidentifikasi dan dapat diperbaiki tepat waktu. Ini memastikan pengguna terus mendapatkan manfaat dari data yang diperbarui, andal, dan sehat dalam analisis mereka. Berbagai jenis metadata yang dapat dilacak termasuk durasi tugas, status tugas, kapan data diperbarui dan banyak lagi. Jika terjadi anomali, pelacakan (dan peringatan) membantu teknisi DataOps memastikan kesehatan data.

Peringatan anomali pipeline data adalah langkah penting yang menutup lingkaran observabilitas. Dengan peringatan, teknisi DataOps dapat memperbaiki masalah kesehatan data sebelum memengaruhi replikasi data di berbagai instance. Dalam sistem data yang ada, insinyur data dapat memicu peringatan untuk:

  • Pengiriman data yang terlewat
  • Perubahan skema yang tidak terduga
  • SLA melewatkan
  • anomali dalam statistik tingkat kolom seperti null dan distribusi
  • Volume dan ukuran data yang tidak teratur
  • Kegagalan, inefisiensi, dan kesalahan di pipeline

Dengan secara proaktif mengatur peringatan dan memantaunya melalui dasbor dan alat bantu pilihan lainnya (Slack, PagerDuty, dll.), perusahaan dapat benar-benar memaksimalkan manfaat replikasi data dan memastikan keberlangsungan bisnis.

Solusi terkait
IBM StreamSets

Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.

Jelajahi StreamSets
IBM Databand

Temukan IBM Databand, perangkat lunak observabilitas untuk saluran data. Secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan membuat alur kerja untuk memperbaiki masalah kualitas data.

Jelajahi Databand
Solusi integrasi data

Buat pipeline data yang tangguh, berkinerja tinggi, dan hemat biaya untuk kebutuhan inisiatif AI generatif Anda, analitik real-time, modernisasi gudang, dan operasional dengan solusi integrasi data IBM.

Temukan solusi integrasi data
Ambil langkah selanjutnya

Temukan IBM DataStage, alat ETL (Extract, Transform, Load) yang menawarkan antarmuka visual untuk merancang, mengembangkan, dan menerapkan pipeline data. Alat ini tersedia sebagai SaaS terkelola di IBM Cloud untuk hosting mandiri dan sebagai add-on pada IBM Cloud Pak for Data.

Jelajahi DataStage Jelajahi layanan analitik