Diterbitkan: 18 Januari 2024
Kontributor: Jim Holdsworth
Penyimpangan model mengacu pada penurunan kinerja model karena perubahan data dan hubungan antara variabel input dan hasil. Model drift-juga dikenal sebagai peluruhan model, dapat berdampak negatif pada kinerja model, yang mengakibatkan pengambilan keputusan yang salah dan prediksi yang buruk.
Untuk mendeteksi dan mengatasi penyimpangan, organisasi dapat memantau dan mengelola kinerja pada platform data dan kecerdasan buatan mereka. Performa model mungkin dimulai dengan baik, tetapi jika tidak dipantau dengan benar dari waktu ke waktu, bahkan model AI yang paling terlatih dan tidak bias pun dapat “menyimpang” dari parameter aslinya dan menghasilkan hasil yang tidak diinginkan saat diterapkan.
Jika pelatihan model AI tidak selaras dengan data yang masuk, model tersebut tidak dapat menafsirkan data secara akurat atau menggunakan data langsung tersebut untuk membuat prediksi yang akurat. Jika penyimpangan tidak terdeteksi dan dikurangi dengan cepat, penyimpangan dapat menyimpang lebih jauh, meningkatkan bahaya pada operasi.
Model yang dibangun menggunakan data historis dapat dengan cepat menjadi stagnan. Dalam banyak kasus, titik data baru selalu muncul, yang berarti variasi baru, pola baru, tren baru, yang tidak dapat ditangkap oleh data historis lama.
Pelajari hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.
Daftar untuk mendapatkan panduan tentang model pondasi
Dunia terus berubah, begitu juga dengan data yang terus berubah, model yang digunakan untuk memahami dunia harus terus ditinjau dan diperbarui. Berikut adalah tiga jenis penyimpangan model yang perlu ditangani, masing-masing dengan penyebab yang berbeda.
Pertama adalah penyimpangan konsep, yang terjadi ketika ada pergeseran antara variabel input dan variabel target, di mana pada saat itu algoritme mulai memberikan jawaban yang salah karena definisi tidak lagi valid. Pergeseran variabel independen dapat berlaku selama berbagai periode waktu yaitu:
Konsep penyimpangan berulang dan surut secara teratur, seperti perilaku pembelian musiman dalam menanggapi perubahan cuaca. Di iklim musim dingin, penjualan sekop salju dan peniup salju biasanya akan meningkat di akhir musim gugur dan awal musim dingin. Penyesuaian geografis juga harus dilakukan untuk perkiraan hujan salju.
Perkembangan yang tidak terduga dapat mendorong pola pembelian baru. Contohnya adalah publisitas yang tiba-tiba muncul di sekitar ChatGPT yang menciptakan peningkatan permintaan untuk produk perangkat keras dan perangkat lunak AI, dan meningkatkan nilai saham perusahaan yang terkait dengan AI. Model peramalan yang dilatih sebelum berita itu diterbitkan tidak dapat memprediksi hasil selanjutnya. Contoh lainnya adalah datangnya pandemi Covid-19, yang juga menciptakan pergeseran perilaku secara tiba-tiba: penjualan permainan dan peralatan olahraga melonjak, sementara restoran dan hotel mengalami penurunan jumlah pengunjung.
Beberapa penyimpangan terjadi secara bertahap, atau pada kecepatan yang diharapkan. Misalnya, spammer dan peretas telah menggunakan berbagai alat dan trik selama bertahun-tahun. Ketika perangkat lunak pelindung dan filter spam telah meningkat, aktor jahat telah meningkatkan permainan mereka. AI apa pun yang dirancang untuk memberikan perlindungan bagi interaksi digital perlu mengimbangi perkembangan; model statis akan segera menjadi tidak berguna.
Kedua adalah penyimpangan data, dimana distribusi data yang mendasari data input telah berubah. Di ritel, penjualan suatu produk dapat dipengaruhi oleh diperkenalkannya produk baru lainnya atau penghentian produk pesaing. Atau jika sebuah situs web pertama kali diadopsi oleh generasi muda, namun kemudian diterima oleh orang yang lebih tua, model asli yang didasarkan pada pola penggunaan pengguna yang lebih muda mungkin tidak akan berfungsi dengan baik pada basis pengguna yang lebih tua.
Ketiga adalah perubahan data hulu, yang terjadi ketika ada perubahan dalam pipeline data. Sebagai contoh, data hulu dapat diubah ke mata uang yang berbeda, seperti USD vs Euro, atau pengukuran dalam mil, bukan kilometer, atau suhu dalam Fahrenheit, bukan Celcius. Perubahan seperti itu akan membuang model yang tidak dibangun untuk memperhitungkan perubahan dalam cara data diberi label.
Agar organisasi dapat mendeteksi dan membantu memperbaiki penyimpangan model, mereka harus mempertimbangkan hal berikut.
Keakuratan model AI dapat menurun dalam beberapa hari setelah penerapan karena data produksi menyimpang dari data pelatihan model. Hal ini dapat menyebabkan prediksi yang salah dan eksposur risiko yang signifikan. Organisasi harus menggunakan program AI dan alat pemantauan yang secara otomatis mendeteksi ketika akurasi model menurun (atau menyimpang) di bawah ambang batas yang telah ditetapkan sebelumnya. Program untuk mendeteksi penyimpangan model ini juga harus melacak transaksi mana yang menyebabkan penyimpangan, sehingga memungkinkan mereka untuk diberi label ulang dan digunakan untuk melatih ulang model, memulihkan kekuatan prediktifnya selama waktu proses.
Ada dua cara untuk mengukur penyimpangan. Pertama adalah statistik, yang menggunakan metrik statistik. Hal ini seringkali lebih mudah diterapkan karena sebagian besar metrik biasanya sudah digunakan dalam perusahaan. Kedua adalah berbasis model. Ini mengukur kesamaan antara suatu titik atau kelompok titik versus garis dasar referensi.
Organisasi harus menguji model AI mereka secara berkala sepanjang siklus hidup mereka. Pengujian ini idealnya meliputi:
Menurut studi Forrester Total Economic Impact, “Dengan membangun, menjalankan, dan mengelola model dalam data terpadu dan lingkungan AI, [organisasi] dapat memastikan bahwa model AI tetap adil, dapat dijelaskan, dan patuh di mana pun. Pendekatan AI menyeluruh ini juga secara unik memberdayakan organisasi untuk mendeteksi dan membantu memperbaiki penyimpangan dan bias model, serta mengelola risiko model saat model AI sedang diproduksi.”
Praktik terbaik adalah mengelola semua model dari dasbor pusat. Pendekatan terintegrasi dapat membantu organisasi melacak metrik secara terus menerus dan memperingatkan tim tentang penyimpangan dalam akurasi dan konsistensi data selama pengembangan, validasi, dan penerapan. Pandangan yang terpusat dan menyeluruh dapat membantu organisasi memecah silo dan memberikan lebih banyak transparansi di seluruh silsilah data.
Deteksi skenario dan ukuran penyimpangan melalui model AI yang membandingkan data produksi dan data pelatihan serta prediksi model secara real time. Dengan cara ini, penyimpangan dapat ditemukan dengan cepat dan pelatihan ulang segera dimulai. Deteksi ini berulang, sama seperti operasi machine learning (MLOps) yang berulang.
Analisis berbasis waktu sangat membantu untuk melihat bagaimana penyimpangan berevolusi dan kapan itu terjadi. Misalnya, jika pemeriksaan dijalankan setiap minggu, itu akan menunjukkan bagaimana penyimpangan berkembang setiap hari. Menganalisis garis waktu juga dapat membantu untuk menentukan apakah penyimpangan itu bertahap atau tiba-tiba.
Gunakan kumpulan data pelatihan baru yang memiliki sampel yang lebih baru dan relevan ditambahkan ke dalamnya. Tujuannya adalah untuk mengembalikan model bahasa besar (LLM) Anda ke produksi dengan cepat dan benar. Jika pelatihan ulang model tidak menyelesaikan masalah, maka model baru mungkin diperlukan.
Alih-alih melatih model dengan data batch, organisasi dapat mempraktikkan “pembelajaran online” dengan memperbarui model machine learning (ML) mereka menggunakan data dunia nyata terbaru segera setelah tersedia.
Sebuah model dapat terlihat menyimpang karena data yang digunakan untuk melatihnya berbeda secara signifikan dengan data produksi aktual yang akan digunakan. Dalam kasus penggunaan medis, jika pemindaian resolusi tinggi digunakan dalam pelatihan, tetapi hanya pemindaian resolusi rendah yang tersedia di lapangan, maka hasilnya akan salah.
Mempercepat alur kerja AI yang bertanggung jawab, transparan, dan dapat dijelaskan untuk model AI generatif dan machine learning
Lacak kinerja model. Terima peringatan ketika terjadi penyimpangan dalam akurasi model dan konsistensi data.
Dapatkan keunggulan kompetitif dengan strategi tata kelola data.
Dapatkan insight dari CDO dan pemimpin ilmu data untuk membangun strategi data tepercaya yang mempercepat pertumbuhan pendapatan.
Membuka perspektif pakar tentang bagaimana organisasi Anda dapat meningkatkan kualitas data, kinerja AI, dan kepercayaan.