Random forest adalah algoritma machine learning yang umum digunakan, dengan merek dagang milik Leo Breiman dan Adele Cutler, yang menggabungkan hasil dari beberapa decision trees untuk mencapai satu hasil. Algoritma ini banyak diadopsi karena mudah digunakan dan fleksibel, dan mampu menangani masalah klasifikasi dan regression.
Karena model random forest terdiri dari beberapa decision trees, akan sangat membantu jika kita mulai dengan menjelaskan algoritma decision trees secara singkat. Decision trees dimulai dengan pertanyaan dasar, seperti, “Apa saya bisa berselancar?” Dari sana, Anda dapat mengajukan serangkaian pertanyaan untuk menentukan jawaban, seperti, “Apakah ini gelombang dengan periode panjang?” atau “Apakah angin bertiup ke lepas pantai?”. Pertanyaan-pertanyaan ini membentuk node keputusan di pohon, yang bertindak sebagai sarana untuk memisahkan data. Setiap pertanyaan membantu seseorang untuk sampai pada keputusan akhir, yang akan dilambangkan dengan node daun. Pengamatan yang sesuai dengan kriteria akan mengikuti cabang “Ya” dan yang tidak sesuai akan mengikuti jalur alternatif. Decision trees berusaha menemukan pemisahan terbaik untuk sub-kumpulan data, dan decision trees biasanya dilatih melalui algoritma Classification and Regression Tree (CART). Metrik, seperti ketidakmurnian Gini, perolehan informasi, atau mean square error (MSE), dapat digunakan untuk mengevaluasi kualitas pemisahan.
Decision trees ini adalah contoh masalah klasifikasi, di mana label kelasnya adalah 'selancar' dan 'jangan berselancar'.
Meskipun decision trees adalah algoritma pembelajaran diawasi yang umum digunakan, masalah seperti bias dan overfitting tetap rentan terjadi. Namun, ketika beberapa decision trees membentuk sebuah ansambel dalam algoritma random forest, mereka memprediksi hasil yang lebih akurat, terutama ketika decision tree individu tidak berkorelasi dengan satu sama lain.
Metode pembelajaran ensambel terdiri dari sekumpulan pengklasifikasi, misalnya struktur keputusan dan prediksi mereka digabungkan untuk mengidentifikasi hasil yang paling populer. Metode ensambel yang paling terkenal adalah bagging, dikenal juga sebagai agregasi bootstrap, dan boosting. Pada tahun 1996, Leo Breiman memperkenalkan metode bagging; dalam metode ini, sampel acak data dalam kumpulan pelatihan dipilih dengan penggantian—yang berarti bahwa tiap titik data individu dapat dipilih lebih dari satu kali. Setelah beberapa sampel data dihasilkan, semua model ini kemudian dilatih secara independen dan tergantung pada jenis tugas, yaitu regresi atau klasifikasi, rata-rata atau sebagian besar prediksi tersebut akan menghasilkan estimasi yang lebih akurat. Pendekatan ini sering digunakan untuk mengurangi varians dalam kumpulan data yang tidak akurat.
Algoritma random forest merupakan perluasan dari metode bagging karena menggunakan bagging dan keacakan fitur untuk menciptakan struktur keputusan forest yang tidak berkorelasi. Keacakan fitur, dikenal juga sebagai fitur bagging atau “metode subruang acak”, menghasilkan subset fitur acak yang memastikan korelasi rendah di antara struktur keputusan. Ini adalah perbedaan utama antara struktur keputusan dengan random forest. Sementara struktur keputusan mempertimbangkan semua kemungkinan pemisahan fitur, random forest hanya memilih subset dari fitur tersebut.
Jika kita kembali ke contoh "haruskah saya berselancar?", pertanyaan yang mungkin saya ajukan untuk menentukan prediksi mungkin tidak selengkap pertanyaan orang lain. Dengan memperhitungkan semua potensi variabilitas dalam data, kami dapat mengurangi risiko overfitting, bias, dan varians secara keseluruhan, sehingga menghasilkan prediksi yang lebih tepat.
Algoritma hutan acak memiliki tiga hiperparameter utama, yang perlu diatur sebelum pelatihan. Hiperparameter ini adalah ukuran simpul, jumlah pohon, dan jumlah fitur yang diambil sampelnya. Dari sana, pengklasifikasi hutan acak dapat digunakan untuk memecahkan masalah regresi atau klasifikasi.
Algoritma hutan acak terdiri dari kumpulan decision trees, dan setiap decision tree dalam himpunan terdiri dari sampel data yang diambil dari set pelatihan dengan penggantian, yang disebut Bootstrapping. Dari sampel pelatihan tersebut, sepertiganya disisihkan sebagai data uji, yang dikenal sebagai sampel out-of-bag (oob), yang akan kita bahas nanti. Contoh keacakan lainnya kemudian dimasukkan melalui pengemasan fitur, dengan menambahkan lebih banyak keberagaman pada kumpulan data dan mengurangi korelasi di antara decision trees. Bergantung pada jenis masalahnya, penentuan prediksi akan bervariasi. Untuk tugas regresi, decision tree individu akan dirata-ratakan, dan untuk tugas klasifikasi, suara mayoritas —yaitu variabel kategori yang paling sering—akan menghasilkan kelas yang diprediksi. Terakhir, sampel oob kemudian digunakan untuk validasi silang, sehingga menyelesaikan prediksi itu.
Ada beberapa keuntungan dan tantangan utama yang dihadirkan oleh algoritma random forest ketika digunakan untuk masalah klasifikasi atau regresi. Beberapa di antaranya adalah:
Algoritma random forest telah diterapkan di sejumlah industri, sehingga memungkinkannya membuat keputusan bisnis yang lebih baik. Beberapa contoh penggunaannya meliputi:
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.