My IBM Masuk Berlangganan

Beranda

Topics

Data gelap

Apa itu data gelap?

Apa itu data gelap?

Jelajahi solusi data gelap IBM Daftar untuk mendapatkan pembaruan AI
Ilustrasi dengan kolase piktogram awan, diagram lingkaran, piktogram grafik
Apa itu data gelap?

Apa itu data gelap?

Menurut Gartner, data gelap mengacu pada aset informasi yang dikumpulkan, diproses, dan disimpan oleh organisasi selama aktivitas bisnis reguler, tetapi umumnya tidak digunakan untuk tujuan lain, seperti analisis, hubungan bisnis, dan menghasilkan uang secara langsung.1

Sebagian besar perusahaan saat ini menyimpan data gelap dalam jumlah besar. Dalam survei penelitian global Splunk terhadap lebih dari 1.300 pengambil keputusan bisnis dan TI, 60 persen responden melaporkan bahwa setengah atau lebih dari data organisasi mereka dianggap gelap. Sepertiga responden melaporkan jumlah ini sebesar 75 persen atau lebih.2

Data gelap terakumulasi karena organisasi telah menganut gagasan bahwa menyimpan semua informasi yang dapat mereka tangkap di dalam data lake besar adalah hal yang berharga. Hal ini sebagian disebabkan oleh munculnya penyimpanan yang murah, yang mempermudah justifikasi untuk menyimpan begitu banyak data—kalau-kalau suatu saat data tersebut bisa bermanfaat.

Pada akhirnya, sebagian besar perusahaan tidak pernah menggunakan bahkan sebagian kecil dari apa yang mereka simpan karena tempat penyimpanan tidak mendokumentasikan label metadata dengan tepat. Beberapa data dalam format yang tidak dapat dibaca oleh alat terintegrasi atau data tidak dapat diambil melalui kueri.

Data gelap merupakan faktor penghalang utama dalam menghasilkan analisis data yang baik karena kualitas analisis data apa pun bergantung pada informasi yang dapat diakses oleh alat analitik, baik secara cepat maupun secara detail.

Masalah lain dari data gelap adalah bahwa hal ini menciptakan kewajiban, biaya penyimpanan yang signifikan, dan peluang yang terlewatkan karena tim tidak menyadari data apa saja yang berpotensi tersedia bagi mereka.

Mengapa tata kelola AI adalah keharusan bisnis untuk menskalakan AI perusahaan

Pelajari tentang hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.

Konten terkait Daftar untuk mendapatkan laporan IDC
Mengapa data menjadi gelap

Mengapa data menjadi gelap

Ada banyak penyebab data organisasi menjadi gelap, termasuk:

  • Kurangnya kesadaran: Data yang diperoleh dalam operasi bisnis normal sering kali menjadi gelap karena organisasi tidak menyadari keberadaannya, atau tidak memahami nilai atau relevansinya.

  • Data terjebak dalam silo: Ketika departemen yang berbeda dalam sebuah organisasi mengumpulkan dan menyimpan data secara independen, hal ini dapat menyebabkan fragmentasi dan isolasi data. Silo data ini mungkin tidak dapat diakses atau dilihat oleh tim lain, yang berpotensi menemukan data yang cukup berharga.

  • Kurangnya tata kelola data: Tanpa adanya kerangka kerja tata kelola data yang solid, organisasi mungkin akan kesulitan untuk mengelola dan melacak data di seluruh ekosistem mereka secara efektif. Hal ini menyebabkan data menjadi tidak teratur, hilang, dan tidak dapat digunakan.

  • Sistem lama: Saat organisasi meningkatkan perangkat lunak dan perangkat keras mereka, sistem lama mungkin akan berhenti digunakan atau menjadi kurang relevan. Data yang disimpan dalam sistem lama ini akan menjadi gelap jika tidak dapat diintegrasikan dengan alat analitik modern organisasi.

  • Integrasi data yang tidak lengkap: Proses integrasi data yang tidak lengkap atau tidak efektif dapat menyebabkan kesenjangan dan ketidakkonsistenan data. Hal ini dapat menyebabkan kumpulan data tertentu tidak dapat diakses atau tidak terhubung dengan baik ke sumber data lainnya.

  • Prioritas bisnis yang berubah: Seiring dengan perubahan prioritas bisnis, kumpulan data tertentu mungkin menjadi kurang relevan atau tidak lagi menjadi fokus. Data yang dulunya digunakan secara aktif mungkin tidak digunakan lagi seiring dengan perubahan tujuan organisasi.

  • Sumber daya dan literasi yang terbatas: Organisasi dengan sumber daya terbatas mungkin memprioritaskan pengumpulan dan penyimpanan data daripada analisis data. Selain itu, literasi data yang tidak memadai di antara karyawan dapat menghambat penemuan dan pemanfaatan data yang berharga.

  • Masalah kualitas data: Kualitas data yang buruk, seperti data yang tidak akurat atau tidak lengkap, dapat menyebabkan data diabaikan atau diabaikan. Data yang dianggap tidak dapat diandalkan cenderung tidak akan digunakan, dan secara langsung menjadikannya gelap.

  • Tujuan kepatuhan terhadap peraturan: Banyak standar kepatuhan dan peraturan yang memaksa organisasi untuk mengikuti peraturan ketat tentang berapa lama mereka harus menyimpan data sensitif. Mereka sering kali menyimpannya lama setelah periode wajib karena gagal melacak data sensitif apa saja yang harus dimusnahkan.

  • Data yang redundan, usang, dan trivial (ROT): ROT tercipta ketika karyawan menyimpan banyak salinan dari informasi yang sama, informasi yang sudah ketinggalan zaman, dan informasi asing yang tidak membantu organisasi mencapai tujuannya.
Jenis data gelap

Jenis data gelap

Dalam hal kemampuannya untuk ditemukan untuk inisiatif analitik data yang tepat waktu dan lengkap, data gelap dapat berupa data terstruktur, data tidak terstruktur, atau data semi-terstruktur.   

Data terstruktur adalah informasi yang ditambahkan ke spreadsheet atau bidang basis data yang ditentukan dengan jelas sebelum disimpan.

File log server, data sensor Internet of Things (IoT), basis data manajemen hubungan pelanggan (CRM), dan sistem perencanaan sumber daya perusahaan (ERP) adalah contoh data gelap yang tercipta dari sumber data terstruktur.

Meskipun sebagian besar bentuk data sensitif, seperti laporan bank elektronik, rekam medis, dan data pelanggan yang terenkripsi biasanya dalam bentuk terstruktur, tetapi sulit untuk dilihat dan dikategorikan karena masalah izin.

Tidak seperti data terstruktur, data tidak terstruktur mencakup informasi yang tidak dapat diatur dalam basis data atau spreadsheet untuk analisis tanpa konversi, kodifikasi, pemeringkatan, dan penataan.

Korespondensi email, PDF, dokumen teks, postingan media sosial, rekaman pusat panggilan, log obrolan, dan rekaman video pengawasan adalah contoh data gelap yang dibuat dari sumber data tidak terstruktur.

Data semi-terstruktur adalah data tidak terstruktur yang berisi beberapa informasi dalam bidang data yang ditentukan. Meskipun tidak memiliki kemudahan penemuan data gelap yang sama dengan data terstruktur, data ini dapat dicari atau dikatalogkan.

Contohnya termasuk kode HTML, faktur, grafik, tabel dan dokumen XML.

Biaya data gelap

Biaya data gelap

Biaya penyimpanan data gelap bisa sangat besar dan melampaui biaya finansial langsung dari penyimpanan data gelap. Biaya langsung dan tidak langsung meliputi:

Biaya penyimpanan data

Menyimpan data, meskipun tidak digunakan secara aktif, membutuhkan infrastruktur penyimpanan fisik atau digital. Ini dapat mencakup server, pusat data, solusi penyimpanan cloud, dan sistem cadangan. Makin banyak data di ekosistem Anda, makin banyak kapasitas penyimpanan data yang Anda butuhkan, yang menyebabkan peningkatan biaya infrastruktur.

Biaya pertanggungjawaban

Pemerintah telah memperkenalkan sejumlah undang-undang privasi global selama beberapa tahun terakhir, yang berlaku untuk semua data—bahkan data yang tidak terpakai di repositori analitik.

Biaya peluang

Banyak perusahaan kehilangan peluang karena tidak menggunakan data ini. Meskipun baik untuk menyingkirkan data gelap yang sebenarnya tidak dapat digunakan—karena risiko dan biaya—akan lebih baik jika kita menganalisis terlebih dahulu data apa yang ada untuk menentukan data yang mungkin dapat digunakan.

Biaya inefisiensi

Mengelola volume data yang besar, termasuk data gelap, dapat memperlambat proses pengambilan dan analisis data. Karyawan dapat menghabiskan lebih banyak waktu untuk mencari informasi yang relevan, yang menyebabkan berkurangnya produktivitas dan meningkatnya biaya tenaga kerja.

Biaya risiko

Data gelap dapat menimbulkan risiko dalam hal keamanan siber yang tidak memadai, pelanggaran data, pelanggaran kepatuhan, dan kehilangan data. Risiko ini dapat mengakibatkan kerusakan reputasi dan konsekuensi keuangan.

Masalah kualitas data dan data gelap

Masalah kualitas data dan data gelap

Terkadang data gelap tercipta karena masalah kualitas data.

Sebagai contoh, transkrip dari rekaman audio dibuat secara otomatis, tetapi AI yang membuat transkrip membuat beberapa kesalahan dalam transkripsi. Seseorang menyimpan transkrip, berpikir bahwa mereka akan memperbaikinya suatu saat, yang tidak pernah mereka lakukan.

Ketika mencoba membersihkan data berkualitas buruk, organisasi terkadang melewatkan apa yang menyebabkan masalah. Tanpa pemahaman yang tepat, tidak mungkin untuk memastikan bahwa masalah kualitas data tidak akan terus terjadi di masa mendatang.

Situasi ini kemudian menjadi siklus, karena alih-alih menerapkan kebijakan penghapusan untuk data gelap yang tidak pernah digunakan, organisasi membiarkan data tersebut terus berada di sana dan berkontribusi pada masalah kualitas data yang terus berkembang.

Untungnya, ada tiga langkah manajemen kualitas data yang dapat diambil oleh organisasi untuk membantu mengatasi masalah ini:

  1. Menganalisis dan mengidentifikasi situasi "apa adanya": Untuk memprioritaskan masalah, pertama-tama kenali semua masalah yang ada saat ini, standar data yang ada, dan dampak bisnis.

  2. Mencegah data buruk muncul kembali: Selanjutnya, evaluasi akar penyebab setiap masalah dan terapkan sumber daya untuk mengatasi masalah secara berkelanjutan sehingga tidak akan terjadi lagi.

  3. Sering-seringlah berkomunikasi di sepanjang jalan: Bagikan apa yang sedang terjadi, apa yang sedang dilakukan tim, dampak dari pekerjaan tersebut, dan bagaimana upaya tersebut terhubung dengan tujuan bisnis.
Cara menyinari data gelap

Cara menyinari data gelap

Terlepas dari semua masalah biaya dan kualitas data dari data gelap, ada sisi positifnya. Seperti yang dikatakan Splunk, "data gelap mungkin merupakan salah satu sumber daya terbesar organisasi yang belum dimanfaatkan."3

Dengan mengambil pendekatan proaktif dalam mengelola data gelap, organisasi dapat menyinari data gelap. Hal ini tidak hanya mengurangi tanggung jawab dan biaya, tetapi juga memberi tim sumber daya yang mereka butuhkan untuk menemukan insight dari data tersembunyi.

Dalam hal menangani data gelap dan berpotensi menggunakannya untuk membuat keputusan berbasis data yang lebih baik, ada beberapa praktik terbaik yang harus diikuti:

Hancurkan silo

Data gelap sering muncul karena silo dalam organisasi. Satu tim membuat data yang dapat berguna bagi yang lain, tetapi tim lain tidak mengetahuinya. Memecah silo tersebut membuat data tersebut tersedia untuk tim yang membutuhkannya. Data berubah dari tidak dimanfaatkan menjadi memberikan nilai yang sangat besar.

Tingkatkan manajemen data

Penting untuk memahami data apa yang ada dalam organisasi. Upaya ini dimulai dengan mengklasifikasikan semua data dalam organisasi untuk mendapatkan tampilan yang lengkap dan akurat. Dari sana, tim dapat mulai mengatur data mereka dengan lebih baik dengan tujuan memudahkan individu di seluruh tim untuk menemukan dan menggunakan apa yang mereka butuhkan.

Tetapkan kebijakan tata kelola data

Memperkenalkan kebijakan tata kelola data dapat membantu meningkatkan tantangan jangka panjang. Kebijakan ini harus mencakup bagaimana semua data yang masuk ditinjau dan memberikan panduan yang jelas tentang apa yang harus disimpan (dan diorganisir untuk menjaga manajemen data yang jelas), diarsipkan, atau dimusnahkan. Bagian penting dari kebijakan ini adalah bersikap ketat tentang data apa yang harus dihancurkan dan kapan. Menerapkan tata kelola data dan meninjau praktik-praktiknya secara teratur dapat membantu meminimalkan jumlah data gelap yang tidak akan pernah digunakan.

Gunakan alat ML dan AI untuk mengurai data

Untuk membantu menemukan data gelap, machine learning (ML) dan kecerdasan buatan (AI) dapat membantu mengkategorikan data gelap dengan melakukan analisis pada data yang mungkin mengandung insight yang berharga. Selain itu, otomatisasi ML dapat membantu peraturan kepatuhan privasi data dengan secara otomatis menyunting informasi sensitif dari data yang disimpan.

Produk terkait

Produk terkait

IBM Databand

IBM Databand adalah perangkat lunak observabilitas untuk pipeline dan gudang data yang secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan peringatan triase untuk memperbaiki masalah kualitas data.

Jelajahi Databand

IBM DataStage

Mendukung pola ETL dan ELT, IBM® DataStage® memberikan integrasi data yang fleksibel dan hampir real-time baik on premises maupun di cloud.

Jelajahi DataStage

Katalog Pengetahuan IBM

Katalog data cerdas untuk era AI, Katalog Pengetahuan IBM® memungkinkan Anda mengakses, mengkurasi, mengategorikan, dan membagikan data, aset pengetahuan, dan hubungannya, di mana pun mereka berada.

Jelajahi Katalog Pengetahuan
Sumber daya

Sumber daya

Apa yang dimaksud dengan ilmu data?

Pelajari apa itu ilmu data dan bagaimana ilmu data dapat mengungkap insight bisnis, mempercepat transformasi digital, serta memungkinkan pengambilan keputusan yang berbasis data.

Apa yang dimaksud dengan artificial intelligence (AI)?

Pelajari apa itu AI, jenis-jenisnya, sejarah AI, dan alasan AI generatif secara dramatis mempercepat adopsi AI di perusahaan.

6 Pilar Kualitas Data dan Cara Meningkatkan Kualitas Data Anda

Pelajari mengapa data berkualitas tinggi sangat penting untuk membuat keputusan yang tepat, melakukan analisis yang akurat, dan mengembangkan strategi yang efektif.

Apa yang harus dilakukan dengan data gelap?

Setiap bisnis mengumpulkan data gelap. Pelajari bagaimana alat manajemen dapat mengubahnya dari tanggung jawab yang mahal menjadi sumber daya berharga yang penuh dengan peluang yang belum dimanfaatkan.

Ambil langkah selanjutnya

Terapkan observabilitas data proaktif dengan IBM Databand hari ini—sehingga Anda dapat mengetahui adanya masalah kesehatan data sebelum pengguna Anda menyadarinya.

Jelajahi Databand Pesan demo langsung
Catatan kaki

1 Gartner Glossary (tautan berada di luar ibm.com), Gartner

2 The State of Dark Data (tautan berada di luar ibm.com), Splunk, 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data (tautan berada di luar ibm.com), Splunk, 03 Agustus 2023