Apa itu Pembelajaran yang Diawasi?

Apa yang dimaksud dengan pembelajaran terawasi?

Pembelajaran yang diawasi, juga dikenal sebagai machine learning yang diawasi, adalah subkategori machine learning dan kecerdasan buatan. Hal ini ditentukan oleh penggunaan kumpulan data berlabel untuk melatih algoritma yang dapat mengklasifikasikan data atau memprediksi hasil secara akurat.

Saat data input dimasukkan ke dalam model, model akan menyesuaikan bobotnya hingga model tersebut sesuai, yang terjadi sebagai bagian dari proses validasi silang. Pembelajaran yang diawasi membantu organisasi memecahkan berbagai masalah dunia nyata dalam skala besar, seperti mengklasifikasikan spam dalam folder terpisah dari kotak email Anda. Ini dapat digunakan untuk membangun model machine learning yang sangat akurat.

Mengapa tata kelola AI adalah keharusan bisnis untuk menskalakan AI perusahaan

Pelajari tentang hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.

Konten terkait

Mendaftar untuk mendapatkan laporan IDC

Mulai perjalanan Anda dengan AI

Pelajari bagaimana menskalakan AI

Jelajahi Akademi AI

Cara kerja pembelajaran yang diawasi

Pembelajaran yang diawasi menggunakan satu set pelatihan untuk mengajarkan model untuk menghasilkan output yang diinginkan. Kumpulan data pelatihan ini mencakup input dan output yang benar, yang memungkinkan model belajar dari waktu ke waktu. Algoritma mengukur akurasinya melalui fungsi kehilangan, menyesuaikan sampai kesalahan telah diminimalkan secara memadai.

Pembelajaran yang diawasi dapat dibagi menjadi dua jenis masalah dalam data mining—klasifikasi dan regresi:

Klasifikasi menggunakan algoritma untuk secara akurat menetapkan data pengujian ke dalam kategori tertentu. Model mengenali entitas tertentu dalam kumpulan data dan mencoba untuk menarik beberapa kesimpulan tentang bagaimana entitas tersebut harus diberi label atau didefinisikan. Algoritma klasifikasi yang umum digunakan adalah linear classifier, support vector machines (SVM), decision trees, k-nearest neighbor, dan random forest yang dijelaskan secara lebih terperinci di bawah ini.
Regresi digunakan untuk memahami hubungan antara variabel dependen dan independen. Regresi biasanya digunakan untuk membuat proyeksi, misalnya pendapatan penjualan suatu bisnis. Regresi linier, regresi logistik, dan regresi polinomial adalah algoritma regresi yang populer.

Algoritma pembelajaran yang diawasi

Berbagai algoritma dan teknik komputasi digunakan dalam proses machine learning yang diawasi. Di bawah ini adalah penjelasan singkat tentang beberapa metode pembelajaran yang paling umum digunakan, yang biasanya dihitung dengan menggunakan program seperti R atau Python:

Neural networks: Terutama dimanfaatkan untuk algoritma pembelajaran mendalam, neural networks memproses data pelatihan input dengan meniru interkonektivitas otak manusia melalui lapisan-lapisan node. Setiap node terdiri dari input, bobot, bias (ambang batas) dan output. Jika nilai output tersebut melebihi ambang batas yang diberikan, maka akan "menembak" atau mengaktifkan node, meneruskan data ke lapisan berikutnya dalam jaringan. Neural networks belajar dari penyesuaian berdasarkan fungsi kerugian melalui proses penurunan gradien. Ketika fungsi biaya berada pada atau mendekati nol, Anda dapat yakin dengan akurasi model.
Naive bayes: Naive Bayes adalah pendekatan klasifikasi yang mengadopsi prinsip independensi bersyarat kelas dari Teorema Bayes. Ini berarti bahwa keberadaan satu fitur tidak memengaruhi keberadaan fitur lain dalam probabilitas hasil yang diberikan, dan setiap prediktor memiliki efek yang sama pada hasil tersebut. Ada tiga jenis pengklasifikasi Naïve Bayes: Multinomial Naïve Bayes, Bernoulli Naïve Bayes, and Gaussian Naïve Bayes. Teknik ini terutama digunakan dalam klasifikasi teks, identifikasi spam, dan sistem rekomendasi.
Regresi linier: Regresi linier digunakan untuk mengidentifikasi hubungan antara variabel dependen dan satu atau lebih variabel independen dan biasanya dimanfaatkan untuk membuat prediksi tentang hasil di masa depan. Ketika hanya ada satu variabel independen dan satu variabel dependen, ini dikenal sebagai regresi linier sederhana. Ketika jumlah variabel independen meningkat, ini disebut sebagai regresi linier berganda. Untuk setiap jenis regresi linier, masing-masing berusaha untuk memplot garis yang paling cocok, yang dihitung melalui metode kuadrat terkecil. Namun, tidak seperti model regresi lainnya, garis ini lurus ketika diplot pada grafik.
Regresi logistik: Sementara regresi linier dimanfaatkan ketika variabel dependen regresi logistik dipilih ketika variabel dependen bersifat kategoris, artinya ada output biner, seperti "true" dan "false" atau "yes" dan "no." Sementara kedua model regresi berusaha untuk memahami hubungan antara input data, regresi logistik terutama digunakan untuk memecahkan masalah klasifikasi biner, seperti identifikasi spam.
Support vector machines (SVM): Support vector machines adalah model pembelajaran yang diawasi yang populer yang dikembangkan oleh Vladimir Vapnik, yang digunakan untuk klasifikasi dan regresi data. Dengan kata lain, SVM biasanya dimanfaatkan untuk masalah klasifikasi, membangun hyperplane di mana jarak antara dua kelas titik data adalah maksimum. Hyperplane ini dikenal sebagai batas keputusan, yang memisahkan kelas-kelas titik data (misalnya, jeruk vs apel) di kedua sisi bidang.
K-nearest neighbor: K-nearest neighbor, juga dikenal sebagai algoritma KNN, adalah algoritma non-parametrik yang mengklasifikasikan titik data berdasarkan kedekatan dan asosiasinya dengan data lain yang tersedia. Algoritma ini mengasumsikan bahwa titik data serupa dapat ditemukan berdekatan satu sama lain. Hasilnya, algoritma ini berusaha menghitung jarak antara titik-titik data, biasanya melalui jarak Euclidean, dan kemudian menetapkan kategori berdasarkan kategori atau rata-rata yang paling sering. Kemudahan penggunaan dan waktu kalkulasi yang rendah membuatnya menjadi algoritma yang disukai oleh para ilmuwan data, tetapi seiring dengan bertambahnya kumpulan data pengujian, waktu pemrosesan menjadi lebih lama, sehingga kurang menarik untuk tugas-tugas klasifikasi. KNN biasanya digunakan untuk mesin rekomendasi dan pengenalan gambar.
Random forest: Random forest atau hutan acak adalah algoritma machine learning fleksibel lainnya yang diawasi yang digunakan untuk tujuan klasifikasi dan regresi. Istilah "forest" merujuk kumpulan decision trees yang tidak berkorelasi, yang kemudian digabungkan bersama untuk mengurangi varians dan membuat prediksi data yang lebih akurat.

Pembelajaran tanpa pengawasan vs. pembelajaran yang diawasi vs. semi-diawasi

Machine learning tanpa pengawasan dan machine learning yang diawasi sering dibahas bersama. Tidak seperti pembelajaran yang diawasi, pembelajaran tanpa pengawasan menggunakan data yang tidak berlabel. Dari data itu, algoritma menemukan pola yang membantu memecahkan masalah pengelompokan atau asosiasi. Hal ini sangat berguna ketika para pakar subjek tidak yakin dengan properti umum dalam kumpulan data. Algoritma pengelompokan umum adalah model campuran hierarkis, k-mean, dan Gaussian.

Pembelajaran semi-diawasi terjadi ketika hanya sebagian dari data input tertentu yang diberi label. Pembelajaran tanpa pengawasan dan semi-diawasi dapat menjadi alternatif yang lebih menarik karena dapat memakan waktu dan mahal untuk mengandalkan keahlian domain untuk memberi label data dengan tepat pada pembelajaran yang diawasi.

Untuk menyelami lebih dalam perbedaan antara pendekatan ini, lihat "Pembelajaran yang Diawasi vs. Tanpa Pengawasan: Apa Perbedaannya?"

contoh pembelajaran yang diawasi

Model pembelajaran yang diawasi dapat digunakan untuk membangun dan memajukan sejumlah aplikasi bisnis, termasuk yang berikut ini:

Pengenalan gambar dan objek: Algoritma pembelajaran yang diawasi dapat digunakan untuk menemukan lokasi, mengisolasi, dan mengkategorikan objek dari video atau gambar, menjadikannya berguna ketika diterapkan pada berbagai teknik visi komputer dan analisis citra.
Analitik prediktif: Kasus penggunaan yang luas untuk model pembelajaran yang diawasi adalah dalam menciptakan sistem analitik prediktif untuk memberikan insight mendalam ke berbagai titik data bisnis. Hal ini memungkinkan perusahaan untuk mengantisipasi hasil tertentu berdasarkan variabel output yang diberikan, membantu para pemimpin bisnis menjustifikasi keputusan, atau melakukan pivot untuk kepentingan organisasi.
Analisis sentimen pelanggan: Dengan menggunakan algoritma machine learning yang diawasi, organisasi dapat mengekstrak dan mengklasifikasikan informasi penting dari data dalam jumlah besar—termasuk konteks, emosi, dan maksud—dengan sedikit sekali campur tangan manusia. Hal ini bisa sangat berguna untuk mendapatkan pemahaman yang lebih baik tentang interaksi pelanggan dan dapat digunakan untuk meningkatkan upaya keterlibatan merek.
Deteksi spam: Deteksi spam adalah contoh lain dari model pembelajaran yang diawasi. Dengan menggunakan algoritma klasifikasi yang diawasi, organisasi bisa melatih database untuk mengenali pola atau anomali pada data baru untuk mengatur korespondensi terkait spam dan non-spam secara efektif.

Tantangan pembelajaran yang diawasi

Meskipun pembelajaran yang diawasi dapat menawarkan keuntungan bagi bisnis, seperti insight data yang mendalam dan otomatisasi yang lebih baik, terdapat beberapa tantangan ketika membangun model pembelajaran yang diawasi yang berkelanjutan. Berikut ini adalah beberapa tantangannya:

Model pembelajaran yang diawasi dapat membutuhkan tingkat keahlian tertentu untuk menatanya secara akurat.
Pelatihan model pembelajaran yang diawasi bisa sangat memakan waktu.
Kumpulan data dapat memiliki kemungkinan kesalahan manusia yang lebih tinggi, sehingga algoritma belajar secara tidak benar.
Tidak seperti model pembelajaran tanpa pengawasan, pembelajaran yang diawasi tidak dapat mengelompokkan atau mengklasifikasikan data sendiri.

Solusi terkait

IBM Watson Studio

Bangun dan skalakan AI tepercaya di cloud apa pun. Otomatiskan siklus hidup AI untuk ModelOps.

Jelajahi IBM Watson Studio

IBM Cloud Pak for Data

Menghubungkan data yang tepat, pada waktu yang tepat, kepada orang yang tepat di mana saja.

Jelajahi Cloud Pak for Data

Solusi IBM Cloud

Hybrid. Terbuka. Resilient. Platform dan mitra Anda untuk transformasi digital.

Jelajahi Solusi Cloud

Sumber daya

Pembelajaran langsung dan gratis untuk teknologi AI generatif

Pelajari konsep dasar untuk AI dan AI generatif, termasuk rekayasa prompt, model bahasa yang besar, dan proyek sumber terbuka terbaik.

Pembelajaran yang Diawasi vs. Tanpa Pengawasan: Apa bedanya?

Pada artikel ini, kita akan mengeksplorasi dasar-dasar dari dua pendekatan ilmu data: diawasi dan tidak diawasi.

Model pembelajaran yang diawasi

Jelajahi beberapa pendekatan pembelajaran yang diawasi seperti support vector machines dan probabilistic classifiers

Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Pesan demo langsung