Apa itu Deduplikasi Data?

Diterbitkan: 3 Januari 2024
Kontributor: Phill Powell, Ian Smalley

Apa itu deduplikasi data?

Deduplikasi data adalah proses penyederhaan yang mengurangi data yang berlebihan dengan menghilangkan salinan ekstra dari informasi yang sama. Tujuan dari deduplikasi data, atau "dedupe" seperti yang biasa disingkat, adalah untuk mengurangi kebutuhan penyimpanan organisasi yang sedang berlangsung.

Organisasi dapat menerapkan proses dan teknik deduplikasi data untuk memastikan bahwa hanya satu instans data yang unik yang ada di dalam sistem penyimpanan mereka. Data duplikat atau berlebihan dihapus dan pengguna diarahkan ke satu instans data.

Jika berhasil, deduplikasi data dapat meningkatkan pemanfaatan penyimpanan organisasi secara keseluruhan dan membantu mengurangi biaya.

Mengurai data dengan AI di IBM® Z

Pelajari poin permasalahan umum pelanggan yang dapat diatasi oleh AI, kemampuan apa saja yang tersedia saat ini, dan alasan IBM® Z merupakan platform AI yang ideal.

Konten terkait

Daftar untuk mendapatkan buku elektronik untuk memodernisasi aplikasi Anda dengan lebih cepat

Mengapa deduplikasi data diperlukan?

Jadi, mengapa perusahaan membuat data duplikat? Mungkin ada satu atau beberapa dari sejumlah alasan yang valid, termasuk yang berikut:

Organisasi atau salah satu departemennya mungkin perlu menggunakan kembali data asli, sehingga salinan data baru dibuat.
Perusahaan mungkin ingin menyimpan salinan duplikat sebagai bagian dari sistem cadangan jika terjadi kehilangan data.
Sebuah organisasi mungkin menyimpan beberapa salinan data yang sama tetapi disimpan dalam format yang berbeda.

Alasan utama lain untuk duplikasi data adalah karena itulah yang sering terjadi di sebagian besar organisasi dengan banyak departemen. Data secara teratur dibuat atau dibuat ulang sebagai hal yang dianggap wajar dan alami dalam menjalankan bisnis dalam konteks modern. Oleh karena itu, pembuatan atau replikasi data bukanlah masalah yang sebenarnya, melainkan proliferasi data yang berlebihan.

Jika tidak ada beban keuangan tambahan yang terkait dengannya, proliferasi data mungkin tampaknya tidak akan terlalu menjadi masalah. Sebuah organisasi dapat memilih untuk menyimpan data di berbagai lokasi dalam arsitektur IT mereka dan tidak peduli dengan redundansi tersebut.

Namun faktanya, perusahaan harus menanggung konsekuensi finansial dengan menyimpan sejumlah besar data yang berlebihan dalam bentuk biaya penyimpanan ekstra. Organisasi yang tidak dapat berhenti menciptakan redundansi data perlu mengalokasikan lebih banyak tenaga kerja dan anggaran untuk mengimplementasikan solusi penyimpanan dan manajemen data baru, baik itu melalui pembelian perangkat keras baru atau penambahan penyimpanan cloud.

Manfaat deduplikasi data

Manfaat yang paling jelas dari teknik deduplikasi data adalah bahwa menyingkirkan data yang tidak diperlukan akan mengurangi jumlah total data yang harus disimpan dan dikelola oleh organisasi. Hal ini secara efektif meningkatkan kapasitas penyimpanan organisasi dengan memiliki lebih sedikit data yang memenuhi ruang penyimpanan.

Selain mengurangi biaya penyimpanan, deduplikasi data juga menawarkan manfaat utama lainnya, seperti mendukung rencana cadangan data dan langkah darurat untuk melindungi pemulihan bencana.

Manfaat lainnya adalah merevitalisasi integritas data dengan menghapus data “beban” dan memastikan bahwa data yang tersisa telah dibersihkan dengan benar. Data yang dideduplikasi terbukti berjalan lebih baik dan mengonsumsi lebih sedikit energi.

Manfaat lain dari deduplikasi data adalah seberapa baik deduplikasi ini bekerja dengan penerapan infrastruktur desktop virtual (VDI), karena kenyataannya hard disk virtual di belakang desktop jarak jauh VDI beroperasi secara identik. Produk Desktop sebagai Layanan (DaaS) yang populer termasuk Azure Virtual Desktop, dari Microsoft dan Windows VDI-nya. Produk ini membuat Virtual Machines (VM), yang dibuat selama proses virtualisasi server. Pada gilirannya, Virtual Machines ini memberdayakan teknologi VDI.

Bagaimana cara kerja deduplikasi data?

Pada tingkat yang paling dasar, deduplikasi data beroperasi melalui fungsi otomatis untuk mengidentifikasi duplikasi dalam blok data, kemudian menghapus duplikasi tersebut. Dengan bekerja di tingkat blok ini, potongan data unik dapat dianalisis dan ditentukan sebagai layak untuk disimpan. Kemudian, ketika perangkat lunak deduplikasi mendeteksi pengulangan blok data yang sama, pengulangan tersebut akan dihapus dan referensi ke data asli akan dimasukkan sebagai gantinya.

Metode alternatif deduplikasi data dilakukan pada tingkat file. Penyimpanan data instans tunggal membandingkan salinan penuh data dalam sistem file, tetapi bukan potongan atau blok data. Seperti metode rekannya, deduplikasi file juga pada dasarnya dilakukan dengan menyimpan file asli dan menghapus salinan tambahan.

Teknik deduplikasi tidak bekerja dengan cara yang sama dengan algoritma kompresi data (misalnya, LZ77, LZ78), meskipun benar bahwa keduanya memiliki tujuan yang sama yaitu untuk mengurangi redundansi data. Teknik deduplikasi mencapai hal ini dalam skala makro yang lebih besar daripada algoritma kompresi, yang tujuannya bukan untuk mengganti file yang identik dengan salinan bersama, tetapi lebih kepada penyandian redundansi data secara efisien.

Jenis deduplikasi data

Ada dua jenis dasar deduplikasi data yang bergantung pada kapan prosesnya terjadi.

Deduplikasi sebaris

Bentuk deduplikasi data ini terjadi secara real-time saat data mengalir di dalam sistem. Sistem ini membawa lalu lintas data yang lebih sedikit karena tidak melakukan transfer atau menyimpan duplikasi data. Hal ini dapat menyebabkan pengurangan jumlah total bandwidth yang dibutuhkan oleh organisasi tersebut.

Deduplikasi pasca-pemrosesan

Jenis deduplikasi ini terjadi setelah data ditulis dan ditempatkan pada beberapa jenis perangkat penyimpanan.

Kedua jenis deduplikasi data dipengaruhi oleh perhitungan hash yang melekat pada deduplikasi data. Perhitungan kriptografi ini merupakan bagian integral untuk mengidentifikasi pola berulang dalam data. Selama deduplikasi sebaris, perhitungan tersebut dilakukan saat itu juga, yang dapat mendominasi dan sementara membanjiri fungsionalitas komputer. Dalam deduplikasi pasca-pemrosesan, perhitungan hash dapat dilakukan kapan saja setelah data ditambahkan.

Perbedaan kecil antara jenis deduplikasi tidak berakhir di situ. Cara kedua untuk mengklasifikasikan jenis deduplikasi didasarkan pada tempat proses tersebut terjadi.

Deduplikasi sumber

Bentuk deduplikasi ini terjadi di dekat tempat data baru dihasilkan. Sistem memindai area tersebut dan mendeteksi salinan file baru, yang kemudian dihapus.

Deduplikasi target

Deduplikasi target pada dasarnya adalah kebalikan dari deduplikasi sumber. Dalam deduplikasi target, sistem mendeduplikasi salinan apa pun yang ditemukan di area selain tempat data asli dibuat.

Karena ada berbagai jenis metode deduplikasi yang dipraktikkan, organisasi yang berpandangan ke depan harus membuat keputusan yang hati-hati dan mempertimbangkan jenis deduplikasi yang mereka pilih, dengan menyeimbangkan metode tersebut dengan kebutuhan khusus perusahaan itu.

Dalam banyak contoh penggunaan, pilihan metode deduplikasi suatu organisasi bisa jadi bergantung pada berbagai variabel internal, seperti berikut ini:

Berapa banyak dan jenis kumpulan data apa yang dibuat
Sistem penyimpanan utama organisasi
Lingkungan virtual mana yang digunakan
Aplikasi mana yang diandalkan perusahaan

Solusi terkait

IBM Storage FlashSystem

Minimalkan potensi gangguan operasional dan isolasikan beban kerja dari serangan ransomware dan ancaman siber lainnya. Tambahkan kecepatan pada postur ketahanan siber Anda sehingga perusahaan Anda dapat mengalami lebih sedikit kerugian dan kembali ke operasi normal dengan lebih cepat.

Jelajahi IBM Storage FlashSystem

IBM Storage Protect

Menghadirkan ketangguhan dalam pencadangan dan pemulihan data dengan IBM Storage Protect. Kenalkan perangkat lunak yang meningkatkan ketahanan data server file fisik, memberikan efisiensi ekstra dan solusi yang dapat diskalakan untuk mengatur miliaran objek per server cadangan.

Jelajahi IBM Storage Protect

IBM Storage as a Service

Pangkas biaya infrastruktur penyimpanan dengan solusi penyimpanan data on premises. Anda membawa datanya—IBM memasok sistem penyimpanannya. Perangkat keras FlashSystem dan IBM DS8900F memberikan Anda model STaaS yang lebih fleksibel, berbasis konsumsi, yang beroperasi seperti cloud.

Jelajahi IBM Storage sebagai sebuah Sistem

Sumber daya

Apa yang dimaksud dengan penyimpanan data?

Jelajahi dasar-dasar penyimpanan data, termasuk jenis perangkat penyimpanan dan berbagai format penyimpanan data.

Apa yang dimaksud dengan migrasi data?

Tingkatkan pemahaman tentang proses aliran data antar-sistem penyimpanan atau lingkungan komputasi.

Apa itu arsitektur data?

Lihat alasan manajemen data yang sukses dimulai dengan cetak biru yang solid dalam bentuk arsitektur data.

Apa yang dimaksud dengan keamanan data?

Tidak ada topik yang lebih mendesak dalam komputasi atau bisnis. Dapatkan dasar-dasar perlindungan data.

Ambil langkah selanjutnya

Sederhanakan manajemen data dan infrastruktur dengan IBM Storage FlashSystem, solusi penyimpanan all-flash berkinerja tinggi yang merampingkan administrasi dan kompleksitas operasional di seluruh lingkungan on-premise, hybrid cloud, virtualisasi, dan kontainer.

Jelajahi penyimpanan FlashSystem

Ikuti tur