Apa itu penyaringan kolaboratif?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Apa itu penyaringan kolaboratif?

Penyaringan kolaboratif adalah sebuah jenis sistem pemberi rekomendasi. Sistem ini mengelompokkan pengguna berdasarkan perilaku serupa, merekomendasikan item baru sesuai dengan karakteristik kelompok.

Penyaringan kolaboratif adalah metode pengambilan informasi yang merekomendasikan item kepada pengguna berdasarkan bagaimana pengguna lain dengan preferensi dan perilaku serupa berinteraksi dengan item tersebut. Dengan kata lain, algoritma penyaringan kolaboratif mengelompokkan pengguna berdasarkan perilaku dan menggunakan karakteristik kelompok secara umum untuk merekomendasikan item kepada pengguna target. Sistem pemberi rekomendasi kolaboratif beroperasi berdasarkan prinsip bahwa pengguna yang serupa (dari segi perilaku) memiliki minat dan selera yang serupa.1

Pemfilteran kolaboratif vs pemfilteran berbasis konten

Penyaringan kolaboratif adalah salah satu dari dua jenis utama sistem pemberi rekomendasi. Jenis lainnya adalah pemberi rekomendasi berbasis konten. Metode yang disebutkan terakhir ini menggunakan fitur item untuk merekomendasikan item yang serupa sebagai item yang pernah berinteraksi secara positif dengan pengguna tertentu pada masa lalu.2 Sementara penyaringan kolaboratif berfokus pada kemiripan pengguna untuk merekomendasikan item, penyaringan berbasis konten merekomendasikan item hanya berdasarkan fitur profil item. Penyaringan berbasis konten menargetkan rekomendasi pada satu preferensi pengguna tertentu, bukan kelompok atau jenis seperti dalam penyaringan kolaboratif.

Kedua metode ini telah menjadi saksi dari banyak aplikasi di dunia nyata dalam beberapa tahun terakhir, mulai dari e-commerce seperti Amazon, media sosial, hingga layanan streaming. Bersama, sistem kolaboratif dan sistem berbasis konten membentuk sistem rekomendasi hybrid. Bahkan, pada tahun 2009, Netflix mengadopsi sistem rekomendasi hybrid melalui kompetisi hadiah Netflix.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Cara kerja pemfilteran kolaboratif

Penyaringan kolaboratif menggunakan matriks untuk memetakan perilaku pengguna untuk setiap item dalam sistemnya. Sistem kemudian mengambil nilai dari matriks ini untuk diplot sebagai titik data dalam ruang vektor. Berbagai metrik kemudian mengukur jarak antar titik sebagai sarana menghitung kesamaan pengguna-pengguna dan item-item.

Matriks item pengguna

Dalam pengaturan standar penyaringan kolaboratif, kita memiliki sekumpulan n pengguna dan sekumpulan x item. Preferensi masing-masing pengguna untuk setiap item ditampilkan dalam matriks item pengguna (kadang-kadang disebut matriks peringkat pengguna). Di sini, pengguna diwakili dalam baris dan item dalam kolom. Dalam matriks Rij , nilai yang diberikan mewakili perilaku pengguna u terhadap item i. Nilai-nilai ini dapat berupa angka kontinu yang diberikan oleh pengguna (misalnya peringkat) atau nilai biner yang menandakan apakah pengguna tertentu melihat atau membeli item tersebut. Berikut adalah contoh matriks waktu pengguna untuk situs web toko buku:

Tabel yang mengilustrasikan matriks item pengguna

Matriks ini menampilkan peringkat pengguna untuk berbagai buku yang tersedia. Algoritma penyaringan kolaboratif membandingkan peringkat yang diberikan pengguna untuk setiap buku. Dengan mengidentifikasi pengguna atau item serupa berdasarkan peringkat tersebut, algoritma ini memprediksi peringkat untuk buku yang belum pernah dilihat oleh pengguna target—ditunjukkan oleh angka nol dalam matriks—dan merekomendasikan (atau tidak merekomendasikan) buku tersebut kepada pengguna target.

Matriks contoh yang digunakan di sini sudah lengkap karena dibatasi untuk empat pengguna dan empat item. Namun, dalam skenario dunia nyata, preferensi pengguna yang diketahui terhadap item sering kali terbatas, sehingga membuat matriks pengguna-item menjadi jarang.3

Langkah-langkah kesamaan

Bagaimana algoritma rekomendasi kolaboratif menentukan kesamaan antara berbagai pengguna? Seperti yang telah disebutkan, kedekatan dalam ruang vektor adalah metode utama. Namun, metrik spesifik yang digunakan untuk menentukan kedekatan itu dapat bervariasi. Dua metrik tersebut adalah kesamaan kosinus dan koefisien korelasi Pearson.

Kesamaan kosinus

Kesamaan kosinus menandakan pengukuran sudut antara dua vektor. Vektor yang dibandingkan terdiri dari subset peringkat untuk pengguna atau item tertentu. Skor kesamaan kosinus dapat berupa nilai antara -1 dan 1. Semakin tinggi skor kosinus, semakin mirip dua item yang dipertimbangkan. Beberapa sumber merekomendasikan metrik ini untuk ruang fitur berdimensi tinggi. Dalam penyaringan kolaboratif, titik vektor diambil langsung dari matriks pengguna-item. Kesamaan kosinus ditunjukkan oleh rumus ini, dimana x dan y menandakan dua vektor dalam ruang vektor:4

Ilustrasi rumus kesamaan kosinus

Koefisien korelasi Pearson (PCC)

PCC membantu mengukur kesamaan antara item atau pengguna dengan menghitung korelasi antara dua peringkat pengguna atau item masing-masing. PCC berkisar antara -1 dan 1 yang menandakan korelasi negatif hingga identik. Tidak seperti kesamaan kosinus, PCC menggunakan semua peringkat untuk pengguna atau item tertentu. Misalnya, jika menghitung PCC antara dua pengguna, kita menggunakan rumus ini, di mana a dan b adalah pengguna berbeda, sedangkan rai dan rbi adalah peringkat pengguna tersebut untuk item i:5

Ilustrasi koefisien korelasi Pearson

Jenis sistem rekomendasi kolaboratif 

Ada dua jenis utama sistem penyaringan kolaboratif: berbasis memori dan berbasis model.

Berbasis memori

Sistem pemberi rekomendasi berbasis memori atau sistem berbasis tetangga adalah perpanjangan dari pengklasifikasi k-nearest neighbor karena sistem ini mencoba memprediksi perilaku pengguna target terhadap item tertentu berdasarkan pengguna atau kumpulan item yang serupa. Sistem berbasis memori dapat dibagi menjadi dua subjenis:

  • Penyaringan berbasis pengguna merekomendasikan item kepada pengguna target berdasarkan preferensi pengguna yang berperilaku. Algoritma rekomendasi membandingkan perilaku pengguna target pada masa lalu dengan pengguna lain. Secara khusus, sistem ini memberikan bobot kepada setiap pengguna yang menunjukkan kesamaan yang mereka rasakan dengan pengguna target—ini adalah tetangga pengguna target. Kemudian sistem memilih n pengguna dengan bobot tertinggi dan menghitung prediksi perilaku pengguna target (misalnya peringkat film, pembelian, ketidaksukaan, dll.) dari rata-rata tertimbang perilaku tetangga yang dipilih. Sistem kemudian merekomendasikan item kepada pengguna target berdasarkan prediksi ini. Prinsipnya adalah bahwa jika pengguna target berperilaku serupa dengan kelompok ini pada masa lalu, mereka akan berperilaku serupa dengan item yang tidak terlihat. Fungsi kesamaan berbasis pengguna dihitung di antara baris dalam matriks pengguna-item.6
  • Penyaringan berbasis item merekomendasikan item baru kepada pengguna target berdasarkan perilaku pengguna tersebut terhadap item serupa. Namun, perlu diperhatikan bahwa dalam membandingkan item, sistem kolaboratif tidak membandingkan fitur item (seperti pada penyaringan berbasis konten), melainkan bagaimana pengguna berinteraksi dengan item tersebut. Misalnya, dalam sistem rekomendasi film, algoritma dapat mengidentifikasi film yang serupa berdasarkan korelasi antara semua peringkat pengguna untuk setiap film (mengoreksi peringkat rata-rata setiap pengguna). Sistem kemudian akan merekomendasikan film baru kepada pengguna target berdasarkan peringkat yang berkorelasi. Artinya, jika pengguna target memberi nilai tinggi pada film a dan b tetapi belum pernah menonton film c, dan pengguna lain yang memberi nilai tinggi pada dua film sebelumnya juga memberi nilai tinggi pada film c, maka sistem akan merekomendasikan film c kepada pengguna target. Dengan cara ini, penyaringan berbasis item menghitung kesamaan item melalui perilaku pengguna. Fungsi kesamaan berbasis item dihitung di antara kolom dalam matriks pengguna-item.7

Berbasis model

Terkadang, literatur menggambarkan metode berbasis memori sebagai metode pembelajaran berbasis contoh. Hal ini menunjukkan bagaimana penyaringan berbasis pengguna dan item membuat prediksi khusus untuk contoh interaksi pengguna-item tertentu, seperti peringkat pengguna target untuk film yang belum pernah ditonton.

Sebaliknya, metode berbasis model membuat model machine learning prediktif dari data. Model ini menggunakan nilai yang ada dalam matriks pengguna-item sebagai kumpulan data pelatihan dan menghasilkan prediksi untuk nilai yang tidak ada menggunakan model yang dihasilkan. Dengan demikian, metode berbasis model menggunakan teknik ilmu data dan algoritma machine learning seperti decision trees, pengklasifikasi Bayes, dan neural networks untuk merekomendasikan item kepada pengguna.8

Faktorisasi matriks adalah metode penyaringan kolaboratif yang banyak dibahas dan sering diklasifikasikan sebagai jenis model faktor laten. Sebagai model faktor laten, faktorisasi matriks mengasumsikan kesamaan pengguna-pengguna atau item-item dapat ditentukan melalui sejumlah fitur tertentu. Misalnya, peringkat buku pengguna dapat diprediksi hanya menggunakan genre buku dan usia atau jenis kelamin pengguna. Karena itulah representasi dimensi yang lebih rendah ini bertujuan untuk menjelaskan, misalnya, peringkat buku dengan menguraikan karakter item dan pengguna berdasarkan beberapa fitur tertentu yang diambil dari data masukan pengguna.9 Karena mengurangi fitur ruang vektor tertentu, faktorisasi matriks juga berfungsi sebagai metode reduksi dimensi.10

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Kelebihan dan kekurangan dari penyaringan kolaboratif

Keuntungan

Dibandingkan dengan sistem berbasis konten, penyaringan kolaboratif lebih efektif dalam memberikan rekomendasi baru kepada pengguna. Metode berbasis kolaboratif menarik rekomendasi dari kumpulan pengguna yang memiliki minat yang sama dengan satu pengguna target. Misalnya, jika suatu kelompok pengguna menyukai kumpulan item yang sama dengan pengguna target, tetapi juga menyukai item tambahan yang tidak diketahui pengguna target karena tidak memiliki kesamaan fitur dengan kumpulan item sebelumnya, sistem penyaringan kolaboratif akan merekomendasikan item baru ini kepada pengguna. Penyaringan kolaboratif dapat merekomendasikan item yang mungkin belum dipertimbangkan oleh pengguna target tetapi tetap menarik bagi tipe pengguna mereka.11

Kekurangan

Masalah kesulitan untuk memulai mungkin merupakan kelemahan yang paling banyak dikutip dari sistem penyaringan kolaboratif. Hal ini terjadi ketika pengguna baru (atau bahkan item baru) memasuki sistem. Kurangnya riwayat interaksi item pada pengguna tersebut mencegah kemampuan sistem mengevaluasi kesamaan atau keterkaitan pengguna baru tersebut dengan pengguna yang sudah ada. Sebaliknya, sistem berbasis konten lebih mahir dalam menangani item baru, meskipun mereka juga kesulitan dalam memberikan rekomendasi untuk pengguna baru.12

Sparsitas data adalah masalah utama lain yang dapat mengganggu sistem rekomendasi kolaboratif. Seperti yang telah disebutkan, sistem pemberi rekomendasi biasanya kekurangan data tentang preferensi pengguna untuk sebagian besar item dalam sistem. Ini berarti sebagian besar ruang fitur sistem kosong, suatu kondisi yang disebut sparsitas data. Seiring dengan meningkatnya kelangkaan data, titik vektor menjadi sangat berbeda sehingga model prediktif menjadi kurang efektif dalam mengidentifikasi pola penjelasan.13 Ini adalah alasan utama mengapa faktorisasi matriks, dan metode faktor laten terkait seperti dekomposisi nilai tunggal, populer dalam penyaringan kolaboratif, karena mereka dapat mengurangi sparsitas data dengan mengurangi fitur. Metode lain yang diterapkan untuk menyelesaikan masalah ini juga dapat melibatkan pengguna sendiri untuk menilai dan memberikan informasi tentang minat mereka sendiri, yang kemudian dapat digunakan oleh sistem untuk menyaring rekomendasi.

Penelitian terbaru

Meskipun penelitian sebelumnya telah mendekati rekomendasi sebagai masalah prediksi atau klasifikasi, sejumlah besar penelitian terbaru berpendapat bahwa rekomendasi dipahami sebagai masalah pengambilan keputusan yang berurutan. Dalam paradigma ini, pembelajaran penguatan mungkin lebih cocok untuk mengatasi rekomendasi. Pendekatan ini berpendapat bahwa rekomendasi diperbarui secara real-time sesuai dengan interaksi pengguna-item; ketika pengguna melewatkan, mengklik, memberi peringkat, membeli item yang disarankan, model mengembangkan kebijakan optimal dari masukan ini untuk merekomendasikan item baru.14 Studi terbaru mengusulkan berbagai macam aplikasi pembelajaran penguatan untuk mengatasi minat pengguna jangka panjang yang dapat berubah-ubah, yang akan menjadi tantangan bagi penyaringan berbasis konten dan kolaboratif.15

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung