Deteksi Anomali dalam Machine Learning: Contoh, Aplikasi & Penggunaan

Penulis

Camilo Quiroz-Vázquez

IBM Staff Writer

Seiring organisasi mengumpulkan kumpulan data yang lebih besar dengan insight potensial ke dalam aktivitas bisnis, deteksi data anomali, atau outlier dalam kumpulan data ini, sangat penting untuk menemukan ketidakefisienan, kejadian langka, akar masalah, atau peluang untuk perbaikan operasional. Namun, apa itu anomali dan mengapa penting untuk mendeteksinya?

Jenis anomali bervariasi menurut perusahaan dan fungsi bisnis. Deteksi anomali berarti mendefinisikan pola dan metrik “normal”— berdasarkan fungsi dan tujuan bisnis—dan mengidentifikasi titik data yang berada di luar perilaku normal operasi. Misalnya, lalu lintas yang lebih tinggi dari rata-rata di situs web atau aplikasi untuk periode tertentu dapat menandakan ancaman keamanan siber, dalam hal ini Anda menginginkan sistem yang dapat secara otomatis memicu peringatan deteksi penipuan. Ini juga bisa menjadi tanda bahwa inisiatif pemasaran tertentu berhasil. Anomali tidak selalu buruk, tetapi menyadari keberadaannya, dan memiliki data untuk menempatkannya dalam konteks, merupakan bagian integral untuk memahami dan melindungi bisnis Anda.

Tantangan bagi departemen TI yang bekerja di bidang ilmu data adalah memahami perluasan dan titik data yang selalu berubah. Dalam blog ini, kita akan membahas bagaimana teknik machine learning, yang didukung oleh kecerdasan buatan, dimanfaatkan untuk mendeteksi perilaku anomali melalui tiga metode deteksi anomali yang berbeda: deteksi anomali yang diawasi, deteksi anomali yang tidak diawasi, dan deteksi anomali yang semi-diawasi.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Pembelajaran dengan pengawasan

Teknik pembelajaran yang diawasi menggunakan data input dan output dunia nyata untuk mendeteksi anomali. Jenis sistem deteksi anomali ini membutuhkan analis data untuk memberi label pada titik data sebagai normal atau tidak normal untuk digunakan sebagai data pelatihan. Model machine learning yang dilatih dengan data berlabel akan dapat mendeteksi outlier berdasarkan contoh yang diberikan. Jenis machine learning ini berguna dalam deteksi outlier yang diketahui, tetapi tidak mampu menemukan anomali yang tidak diketahui atau memprediksi masalah di masa depan.

Algoritma machine learning yang umum untuk pembelajaran yang diawasi meliputi:

Algoritma K-nearest neighbor (KNN): Algoritma ini adalah pengklasifikasi berbasis densitas atau alat pemodelan regresi yang digunakan untuk deteksi anomali. Modeling regresi adalah alat statistik yang digunakan untuk menemukan hubungan antara data berlabel dan data variabel. Alat ini berfungsi berdasarkan asumsi bahwa titik data serupa akan ditemukan berdekatan satu sama lain. Jika muncul lebih jauh dari bagian titik yang padat, titik data dianggap sebagai anomali.
Faktor outlier lokal (LOF): Faktor outlier lokal mirip dengan KNN yang merupakan algoritma berbasis kepadatan. Perbedaan utamanya adalah ketika KNN membuat asumsi berdasarkan titik-titik data yang paling dekat, LOF menggunakan titik-titik yang paling jauh untuk menarik kesimpulan.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Pembelajaran tanpa pengawasan

Teknik pembelajaran tanpa pengawasan tidak memerlukan data berlabel dan dapat menangani kumpulan data yang lebih kompleks. Pembelajaran tanpa pengawasan didukung oleh pembelajaran mendalam dan neural networks atau encoder otomatis yang meniru cara neuron biologis saling memberi sinyal. Alat yang ampuh ini dapat menemukan pola dari data input dan membuat asumsi tentang data apa yang dianggap normal.

Teknik-teknik ini bisa sangat membantu dalam menemukan anomali yang tidak diketahui dan mengurangi pekerjaan memilah-milah kumpulan data yang besar secara manual. Namun, ilmuwan data harus memantau hasil yang dikumpulkan melalui pembelajaran tanpa pengawasan. Karena teknik-teknik ini membuat asumsi tentang data yang dimasukkan, ada kemungkinan teknik-teknik ini salah memberi label pada anomali.

Algoritma machine learning untuk data tidak terstruktur meliputi:

K-means: Algoritma ini merupakan teknik visualisasi data yang memproses titik data melalui persamaan matematis dengan tujuan mengelompokkan titik data yang serupa. "Means", atau data rata-rata, mengacu pada titik-titik di tengah kluster yang terkait dengan semua data lainnya. Melalui analisis data, kluster ini dapat digunakan untuk menemukan pola dan membuat kesimpulan tentang data yang ditemukan di luar kebiasaan.

Isolation forest: Jenis algoritma deteksi anomali ini menggunakan data tanpa pengawasan. Tidak seperti teknik deteksi anomali diawasi yang bekerja dari titik data normal berlabel, teknik ini mencoba mengisolasi anomali sebagai langkah pertama. Mirip dengan “random forest,” algoritma ini menciptakan “struktur keputusan” yang memetakan titik-titik data dan secara acak memilih area untuk dianalisis. Proses ini diulang dan setiap titik menerima skor anomali antara 0 dan 1, berdasarkan lokasinya terhadap titik lainnya; nilai di bawah 0,5 umumnya dianggap normal, sedangkan nilai yang melebihi ambang batas tersebut kemungkinan besar bersifat anomali.Model forest isolation dapat ditemukan di pustaka machine learning gratis untuk Python, scikit-learn.

Mesin vektor pendukung satu kelas (SVM): Teknik deteksi anomali ini menggunakan data pelatihan untuk membuat batas-batas di sekitar apa yang dianggap normal. Titik-titik yang berkerumun dalam batas yang ditetapkan dianggap normal dan yang di luar diberi label sebagai anomali.

Pembelajaran semi-diawasi

Metode deteksi anomali semi-diawasi menggabungkan manfaat dari dua metode sebelumnya. Insinyur dapat menerapkan metode pembelajaran tanpa pengawasan untuk mengotomatiskan pembelajaran fitur dan bekerja dengan data yang tidak terstruktur. Namun, dengan menggabungkannya dengan pengawasan manusia, mereka memiliki kesempatan untuk memantau dan mengontrol pola seperti apa yang dipelajari oleh model tersebut. Ini biasanya membantu membuat prediksi model lebih akurat.

Regresi linear: Alat machine learning prediktif ini menggunakan variabel dependen dan independen. Variabel independen digunakan sebagai dasar untuk menentukan nilai variabel dependen melalui serangkaian persamaan statistik. Persamaan ini menggunakan data berlabel dan tidak berlabel untuk memprediksi hasil di masa mendatang ketika hanya sebagian informasi yang diketahui.

Contoh penggunaan deteksi anomali

Deteksi anomali adalah alat penting untuk mempertahankan fungsi bisnis di berbagai industri. Penggunaan algoritma pembelajaran yang diawasi, tidak diawasi, dan semi-diawasi akan bergantung pada jenis data yang dikumpulkan dan tantangan operasional yang sedang dipecahkan. Contoh penggunaan deteksi anomali meliputi:

Contoh penggunaan pembelajaran dengan pengawasan:

Retail

Menggunakan data berlabel dari total penjualan tahun sebelumnya dapat membantu memprediksi sasaran penjualan di masa depan. Hal ini juga dapat membantu menetapkan tolok ukur untuk karyawan penjualan tertentu berdasarkan kinerja mereka di masa lalu dan kebutuhan perusahaan secara keseluruhan. Karena semua data penjualan diketahui, pola dapat dianalisis untuk mendapatkan insight tentang produk, pemasaran, dan musiman.

Prakiraan cuaca

Dengan menggunakan data historis, algoritma pembelajaran yang diawasi dapat membantu dalam prediksi pola cuaca. Menganalisis data terkini terkait tekanan barometrik, suhu, dan kecepatan angin memungkinkan ahli meteorologi membuat prakiraan yang lebih akurat yang memperhitungkan perubahan kondisi.

Contoh penggunaan pembelajaran tanpa pengawasan:

Sistem deteksi intrusi

Jenis sistem ini hadir dalam bentuk perangkat lunak atau perangkat keras, yang memantau lalu lintas jaringan untuk mencari tanda-tanda pelanggaran keamanan atau aktivitas berbahaya. Algoritma machine learning dapat dilatih untuk mendeteksi potensi serangan pada jaringan secara real-time, melindungi informasi pengguna dan fungsi sistem.

Algoritma ini dapat membuat visualisasi kinerja normal berdasarkan data deret waktu, yang menganalisis titik data pada interval yang ditetapkan untuk waktu yang lama. Lonjakan lalu lintas jaringan atau pola tak terduga dapat ditandai dan diperiksa sebagai potensi pelanggaran keamanan.

Manufaktur

Memastikan mesin berfungsi dengan baik sangat penting untuk membuat produk, mengoptimalkan jaminan kualitas, dan menjaga rantai pasokan. Algoritma pembelajaran tanpa pengawasan dapat digunakan untuk pemeliharaan prediktif dengan mengambil data tanpa label dari sensor yang terpasang pada peralatan dan membuat prediksi tentang potensi kegagalan atau kerusakan. Hal ini memungkinkan perusahaan untuk melakukan perbaikan sebelum kerusakan kritis terjadi, mengurangi waktu henti alat berat.

Contoh penggunaan pembelajaran semi-diawasi:

Medis

Menggunakan algoritma machine learning, profesional medis dapat memberi label pada gambar yang mengandung penyakit atau gangguan yang diketahui. Namun, karena gambar akan bervariasi dari orang ke orang, tidak mungkin untuk memberi label pada semua penyebab potensial yang perlu dikhawatirkan. Setelah dilatih, algoritma ini dapat memproses informasi pasien dan membuat kesimpulan pada gambar yang tidak berlabel dan menandai alasan potensial yang perlu dikhawatirkan.

Deteksi penipuan

Algoritma prediktif dapat menggunakan pembelajaran semi-pengawasan yang memerlukan data berlabel dan tidak berlabel untuk mendeteksi penipuan. Karena aktivitas kartu kredit pengguna diberi label, algoritma dapat digunakan untuk mendeteksi pola pengeluaran yang tidak wajar.

Namun, solusi deteksi penipuan tidak hanya bergantung pada transaksi yang sebelumnya telah dilabeli sebagai penipuan; solusi ini juga dapat membuat asumsi berdasarkan perilaku pengguna, termasuk lokasi saat ini, perangkat yang digunakan untuk masuk, dan faktor lain yang membutuhkan data yang tidak berlabel.

Observabilitas dalam deteksi anomali

Deteksi anomali didukung oleh solusi dan alat yang memberikan kemampuan observasi lebih besar pada data kinerja. Alat-alat ini memungkinkan identifikasi anomali dengan cepat, membantu mencegah dan memperbaiki masalah. IBM Instana Observability memanfaatkan kecerdasan buatan dan machine learning untuk memberikan semua anggota tim gambaran terperinci dan kontekstual tentang data kinerja, membantu memprediksi secara akurat dan memecahkan masalah kesalahan secara proaktif.

IBM watsonx.ai menawarkan alat AI generatif tangguh yang dapat menganalisis kumpulan data besar untuk mengekstrak insight yang bermakna. Melalui analisis yang cepat dan komprehensif, IBM watson.ai dapat mengidentifikasi pola dan tren yang dapat digunakan untuk mendeteksi anomali saat ini dan membuat prediksi tentang outlier di masa depan. Watson.ai dapat digunakan di seluruh industri untuk berbagai kebutuhan bisnis.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Deteksi anomali dalam machine learning: Menemukan outlier untuk optimalisasi fungsi bisnis