Deteksi anomali, atau deteksi outlier, adalah identifikasi pengamatan, peristiwa, atau titik data yang menyimpang dari standar atau yang diharapkan, sehingga tidak konsisten dengan kumpulan data lainnya.
Deteksi anomali memiliki sejarah panjang dalam bidang statistik, di mana para analis dan ilmuwan akan mempelajari grafik untuk mencari elemen apa pun yang tampak tidak normal. Saat ini, deteksi anomali memanfaatkan kecerdasan buatan (AI) dan pembelajaran mesin (ML) untuk secara otomatis mengidentifikasi perubahan yang tidak terduga dalam perilaku normal kumpulan data.
Data anomali dapat menandakan insiden kritis yang terjadi di bawah tenda, seperti kegagalan infrastruktur, perubahan besar dari sumber hulu atau ancaman keamanan. Anomali juga dapat menyoroti peluang untuk optimasi arsitektur atau meningkatkan strategi pemasaran.
Deteksi anomali memiliki berbagai kasus penggunaan di berbagai industri. Misalnya, digunakan di bidang keuangan untuk mendeteksi penipuan, di bidang manufaktur untuk mengidentifikasi cacat atau kerusakan peralatan, di bidang keamanan siber untuk mendeteksi aktivitas jaringan yang tidak biasa, dan di bidang perawatan kesehatan untuk mengidentifikasi kondisi pasien yang tidak normal.
Deteksi outlier bisa jadi menantang karena anomali sering kali jarang terjadi, dan karakteristik perilaku normal dapat menjadi kompleks dan dinamis. Dari perspektif bisnis, penting untuk mengidentifikasi anomali yang sebenarnya, bukannya positif palsu atau gangguan data.
Buletin industri
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Anomali data dapat memiliki dampak yang signifikan dalam bidang ilmu data, yang mengarah kepada kesimpulan yang salah atau menyesatkan. Sebagai contoh, satu outlier dapat secara signifikan mengubah rata-rata dari kumpulan data, menjadikannya representasi data yang tidak akurat. Selain itu, anomali data dapat memengaruhi kinerja algoritma machine learning, karena dapat menyebabkan model lebih sesuai dengan gangguan daripada pola yang mendasari data.
Mengidentifikasi dan menangani anomali data sangat penting untuk beberapa alasan:
Peningkatan kualitas data: Mengidentifikasi dan menangani anomali data dapat secara signifikan meningkatkan kualitas data, yang sangat penting untuk analisis data yang akurat dan andal. Dengan menangani anomali data, analis dapat mengurangi kebisingan dan kesalahan dalam kumpulan data, memastikan bahwa data tersebut lebih mewakili pola yang sebenarnya.
Pengambilan keputusan yang lebih baik: Pengambilan keputusan berbasis data bergantung pada analisis data yang akurat dan dapat diandalkan untuk menginformasikan keputusan. Dengan mengidentifikasi dan menangani anomali data, analis dapat memastikan bahwa temuan mereka lebih dapat dipercaya, sehingga menghasilkan keputusan yang lebih tepat dan hasil yang lebih baik.
Kinerja machine learning yang dioptimalkan: Anomali data dapat berdampak signifikan terhadap kinerja algoritma machine learning, karena dapat menyebabkan model lebih sesuai dengan noise daripada pola yang mendasari data. Dengan mengidentifikasi dan menangani anomali data, analis dapat mengoptimalkan kinerja model machine learning mereka, memastikan bahwa model tersebut memberikan prediksi yang akurat dan andal.
Sistem deteksi anomali dapat mengungkap dua jenis umum anomali: tidak disengaja dan disengaja.
Anomali yang tidak disengaja adalah titik data yang menyimpang dari norma karena kesalahan atau noise dalam proses pengumpulan data. Kesalahan ini dapat bersifat sistematis atau acak, yang berasal dari masalah seperti sensor yang rusak atau kesalahan manusia selama entri data. Anomali yang tidak disengaja dapat mendistorsi kumpulan data, sehingga sulit untuk mendapatkan wawasan yang akurat.
Anomali yang disengaja adalah titik data yang menyimpang dari norma karena tindakan atau peristiwa tertentu. Anomali ini dapat memberikan insight yang berharga ke dalam kumpulan data, karena dapat menyoroti kejadian atau tren yang unik. Sebagai contoh, lonjakan penjualan yang tiba-tiba selama musim liburan dapat dianggap sebagai anomali yang disengaja, karena hal ini menyimpang dari pola penjualan pada umumnya, namun diperkirakan terjadi karena suatu peristiwa di dunia nyata.
Dalam data bisnis, ada tiga anomali data deret waktu utama: anomali titik, anomali kontekstual, dan anomali kolektif.
Anomali titik, juga dikenal sebagai outlier global, adalah titik data tunggal yang berada jauh di luar pola kumpulan data lainnya. Anomali bisa disengaja maupun tidak, dan dapat muncul akibat kesalahan, kebisingan, atau peristiwa yang bersifat unik. Contoh anomali poin adalah penarikan rekening bank yang secara signifikan lebih besar daripada penarikan pengguna sebelumnya.
Anomali kontekstual adalah titik data yang menyimpang dari norma dalam konteks tertentu. Anomali ini tidak selalu merupakan outlier ketika dipertimbangkan secara terpisah tetapi menjadi anomali jika dilihat dalam konteks spesifiknya.
Misalnya, pertimbangkan penggunaan energi rumah. Jika terjadi peningkatan konsumsi energi secara tiba-tiba pada tengah hari ketika tidak ada anggota keluarga yang berada di rumah, maka anomali tersebut bersifat kontekstual. Titik data ini mungkin bukan pencilan jika dibandingkan dengan penggunaan energi di pagi atau sore hari (saat orang biasanya berada di rumah), tetapi ini adalah anomali dalam konteks waktu terjadinya.
Anomali kolektif melibatkan sekumpulan contoh data yang secara bersama-sama menyimpang dari norma, meskipun contoh individu mungkin tampak normal. Contoh dari jenis anomali ini adalah kumpulan data lalu lintas jaringan yang menunjukkan lonjakan lalu lintas yang tiba-tiba dari beberapa alamat IP pada saat yang bersamaan.
Menggunakan sistem pendeteksi anomali untuk mendeteksi anomali data merupakan aspek penting dalam analisis data, untuk memastikan bahwa temuannya akurat dan dapat diandalkan. Berbagai metode deteksi anomali dapat digunakan dalam membangun sistem deteksi anomali.
Visualisasi adalah alat yang ampuh untuk mendeteksi anomali data, karena memungkinkan ilmuwan data untuk dengan cepat mengidentifikasi potensi outlier dan pola dalam data. Dengan memplot data menggunakan bagan dan grafik, analis dapat memeriksa kumpulan data secara visual untuk setiap titik data atau tren yang tidak biasa.
Uji statistik dapat digunakan oleh ilmuwan data untuk mendeteksi anomali data dengan membandingkan data yang diamati dengan distribusi atau pola yang diharapkan.
Sebagai contoh, uji Grubbs dapat digunakan untuk mengidentifikasi outlier dalam kumpulan data dengan membandingkan setiap titik data dengan rata-rata dan standar deviasi data. Demikian pula, uji Kolmogorov-Smirnov dapat digunakan untuk menentukan apakah kumpulan data mengikuti distribusi tertentu, seperti distribusi normal.
Algoritma machine learning dapat digunakan untuk deteksi anomali data dengan mempelajari pola yang mendasarinya dalam data dan kemudian mengidentifikasi penyimpangan dari pola itu. Beberapa algoritma deteksi anomali ML yang paling umum meliputi:
Algoritma deteksi anomali dapat belajar mengidentifikasi pola dan mendeteksi data anomali menggunakan berbagai teknik pelatihan pembelajaran mesin. Jumlah data berlabel, jika ada, dalam kumpulan data pelatihan tim data menentukan teknik deteksi anomali utama mana yang akan mereka gunakan-tanpa pengawasan, dengan pengawasan, atau semi-pengawasan.
Dengan teknik deteksi anomali tanpa pengawasan, para insinyur data melatih sebuah model dengan menyediakan set data tanpa label yang digunakannya untuk menemukan pola atau ketidaknormalan dengan sendirinya. Meskipun teknik ini adalah yang paling umum digunakan karena aplikasinya yang lebih luas dan relevan, teknik ini membutuhkan kumpulan data yang sangat besar dan daya komputasi. Machine learning tanpa pengawasan paling sering ditemukan dalam pembelajaran mendalam skenario, yang mengandalkan neural networks tiruan.
Teknik deteksi anomali yang diawasi menggunakan algoritma yang dilatih pada kumpulan data berlabel yang mencakup instans normal dan anomali. Karena tidak tersedianya data pelatihan berlabel secara umum dan sifat kelas yang tidak seimbang yang melekat, teknik deteksi anomali ini jarang digunakan.
Teknik semi-pengawasan memaksimalkan atribut positif dari deteksi anomali tak terawasi dan deteksi anomali terawasi. Dengan menyediakan algoritma dengan sebagian data berlabel, algoritma ini dapat dilatih secara parsial. Insinyur data kemudian menggunakan algoritma yang telah dilatih sebagian untuk memberi label pada kumpulan data yang lebih besar secara mandiri, yang disebut sebagai “pelabelan semu.” Dengan asumsi bahwa mereka terbukti dapat diandalkan, titik data yang baru dilabeli ini digabungkan dengan kumpulan data asli untuk menyempurnakan algoritma.
Menemukan kombinasi yang tepat antara pembelajaran mesin yang diawasi dan tidak diawasi sangat penting untuk otomatisasi pembelajaran mesin. Idealnya, sebagian besar klasifikasi data akan dilakukan tanpa interaksi manusia dengan cara yang tidak diawasi. Meskipun demikian, insinyur data harus tetap dapat memberi makan algoritme dengan data pelatihan yang akan membantu menciptakan garis dasar bisnis seperti biasa. Pendekatan semi-pengawasan memungkinkan deteksi anomali berskala dengan fleksibilitas untuk membuat aturan manual mengenai anomali tertentu.
Model deteksi anomali digunakan secara luas di industri perbankan, asuransi dan perdagangan saham untuk mengidentifikasi aktivitas penipuan secara real time, seperti transaksi yang tidak sah, pencucian uang, penipuan kartu kredit, klaim pengembalian pajak palsu dan pola perdagangan yang tidak normal.
Sistem deteksi intrusi (IDS) dan teknologi keamanan siber lainnya menggunakan deteksi anomali untuk mengidentifikasi aktivitas pengguna atau pola lalu lintas jaringan yang tidak biasa atau mencurigakan, yang dapat mengindikasikan ancaman keamanan seperti infeksi malware atau akses tidak sah.
Algoritma deteksi anomali sering digunakan bersama visi komputer untuk mengidentifikasi cacat pada produk atau kemasan dengan menganalisis rekaman kamera beresolusi tinggi, data sensor, dan metrik produksi.
Deteksi anomali digunakan untuk memantau kinerja sistem TI dan menjaga operasi berjalan lancar dengan mengidentifikasi pola yang tidak biasa dalam log server dan merekonstruksi kesalahan dari pola dan pengalaman masa lalu untuk memprediksi potensi masalah atau kegagalan.
Dengan mendeteksi penyimpangan pada data dari sensor Internet of Things (IoT) dan perangkat teknologi operasi (OT), deteksi anomali dapat membantu memprediksi kegagalan peralatan atau kebutuhan pemeliharaan di industri seperti penerbangan, energi, dan transportasi. Ketika digunakan untuk memantau pola konsumsi energi dan mengidentifikasi anomali dalam penggunaan, deteksi anomali dapat mengarah pada manajemen energi yang lebih efisien dan deteksi dini kegagalan peralatan.
Pedagang juga menggunakan model deteksi anomali untuk mengidentifikasi pola yang tidak biasa dalam perilaku pelanggan, membantu deteksi penipuan, memprediksi churn pelanggan dan meningkatkan strategi pemasaran. Dalam e-commerce, deteksi anomali digunakan untuk mengidentifikasi ulasan palsu, pengambilalihan akun, perilaku pembelian yang tidak normal, serta indikasi penipuan atau kejahatan siber lainnya.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.