Apa Itu Random Forest?

Penulis

Business Development + Partnerships

IBM Research

Apa itu random forest?

Random forest adalah algoritma machine learning yang umum digunakan, dengan merek dagang milik Leo Breiman dan Adele Cutler, yang menggabungkan hasil dari beberapa decision trees untuk mencapai satu hasil. Algoritma ini banyak diadopsi karena mudah digunakan dan fleksibel, dan mampu menangani masalah klasifikasi dan regression.

Pohon keputusan

Karena model random forest terdiri dari beberapa decision trees, akan sangat membantu jika kita mulai dengan menjelaskan algoritma decision trees secara singkat. Decision trees dimulai dengan pertanyaan dasar, seperti, “Apa saya bisa berselancar?” Dari sana, Anda dapat mengajukan serangkaian pertanyaan untuk menentukan jawaban, seperti, “Apakah ini gelombang dengan periode panjang?” atau “Apakah angin bertiup ke lepas pantai?”. Pertanyaan-pertanyaan ini membentuk node keputusan di pohon, yang bertindak sebagai sarana untuk memisahkan data. Setiap pertanyaan membantu seseorang untuk sampai pada keputusan akhir, yang akan dilambangkan dengan node daun. Pengamatan yang sesuai dengan kriteria akan mengikuti cabang “Ya” dan yang tidak sesuai akan mengikuti jalur alternatif. Decision trees berusaha menemukan pemisahan terbaik untuk sub-kumpulan data, dan decision trees biasanya dilatih melalui algoritma Classification and Regression Tree (CART). Metrik, seperti ketidakmurnian Gini, perolehan informasi, atau mean square error (MSE), dapat digunakan untuk mengevaluasi kualitas pemisahan.

Decision trees ini adalah contoh masalah klasifikasi, di mana label kelasnya adalah 'selancar' dan 'jangan berselancar'.

Meskipun decision trees adalah algoritma pembelajaran diawasi yang umum digunakan, masalah seperti bias dan overfitting tetap rentan terjadi. Namun, ketika beberapa decision trees membentuk sebuah ansambel dalam algoritma random forest, mereka memprediksi hasil yang lebih akurat, terutama ketika decision tree individu tidak berkorelasi dengan satu sama lain.

Metode ansambel

Metode pembelajaran ensambel terdiri dari sekumpulan pengklasifikasi, misalnya struktur keputusan dan prediksi mereka digabungkan untuk mengidentifikasi hasil yang paling populer. Metode ensambel yang paling terkenal adalah bagging, dikenal juga sebagai agregasi bootstrap, dan boosting. Pada tahun 1996, Leo Breiman memperkenalkan metode bagging; dalam metode ini, sampel acak data dalam kumpulan pelatihan dipilih dengan penggantian—yang berarti bahwa tiap titik data individu dapat dipilih lebih dari satu kali. Setelah beberapa sampel data dihasilkan, semua model ini kemudian dilatih secara independen dan tergantung pada jenis tugas, yaitu regresi atau klasifikasi, rata-rata atau sebagian besar prediksi tersebut akan menghasilkan estimasi yang lebih akurat. Pendekatan ini sering digunakan untuk mengurangi varians dalam kumpulan data yang tidak akurat.

Algoritma random forest

Algoritma random forest merupakan perluasan dari metode bagging karena menggunakan bagging dan keacakan fitur untuk menciptakan struktur keputusan forest yang tidak berkorelasi. Keacakan fitur, dikenal juga sebagai fitur bagging atau “metode subruang acak”, menghasilkan subset fitur acak yang memastikan korelasi rendah di antara struktur keputusan. Ini adalah perbedaan utama antara struktur keputusan dengan random forest. Sementara struktur keputusan mempertimbangkan semua kemungkinan pemisahan fitur, random forest hanya memilih subset dari fitur tersebut.

Jika kita kembali ke contoh "haruskah saya berselancar?", pertanyaan yang mungkin saya ajukan untuk menentukan prediksi mungkin tidak selengkap pertanyaan orang lain. Dengan memperhitungkan semua potensi variabilitas dalam data, kami dapat mengurangi risiko overfitting, bias, dan varians secara keseluruhan, sehingga menghasilkan prediksi yang lebih tepat.

Cara kerjanya

Algoritma hutan acak memiliki tiga hiperparameter utama, yang perlu diatur sebelum pelatihan. Hiperparameter ini adalah ukuran simpul, jumlah pohon, dan jumlah fitur yang diambil sampelnya. Dari sana, pengklasifikasi hutan acak dapat digunakan untuk memecahkan masalah regresi atau klasifikasi.

Algoritma hutan acak terdiri dari kumpulan decision trees, dan setiap decision tree dalam himpunan terdiri dari sampel data yang diambil dari set pelatihan dengan penggantian, yang disebut Bootstrapping. Dari sampel pelatihan tersebut, sepertiganya disisihkan sebagai data uji, yang dikenal sebagai sampel out-of-bag (oob), yang akan kita bahas nanti. Contoh keacakan lainnya kemudian dimasukkan melalui pengemasan fitur, dengan menambahkan lebih banyak keberagaman pada kumpulan data dan mengurangi korelasi di antara decision trees. Bergantung pada jenis masalahnya, penentuan prediksi akan bervariasi. Untuk tugas regresi, decision tree individu akan dirata-ratakan, dan untuk tugas klasifikasi, suara mayoritas —yaitu variabel kategori yang paling sering—akan menghasilkan kelas yang diprediksi. Terakhir, sampel oob kemudian digunakan untuk validasi silang, sehingga menyelesaikan prediksi itu.

Manfaat dan tantangan random forest

Ada beberapa keuntungan dan tantangan utama yang dihadirkan oleh algoritma random forest ketika digunakan untuk masalah klasifikasi atau regresi. Beberapa di antaranya adalah:

Manfaat Utama

Mengurangi risiko overfitting: Decision trees menghadapi risiko overfitting karena cenderung menyesuaikan semua sampel dalam data pelatihan. Akan tetapi, bila terdapat banyak decision trees dalam random forest, pengklasifikasi tidak akan terlalu menyesuaikan model karena perataan pohon yang tidak berkorelasi akan menurunkan varians keseluruhan dan kesalahan prediksi.
Memberikan fleksibilitas: Karena random forest dapat menangani tugas regresi dan klasifikasi dengan tingkat akurasi yang tinggi, maka metode ini menjadi metode yang populer di kalangan ilmuwan data. Feature bagging juga membuat pengklasifikasi hutan acak menjadi alat yang efektif untuk memperkirakan missing values karena mempertahankan akurasi ketika sebagian data hilang.
Mudah untuk menentukan feature importance: Random forest memudahkan evaluasi tingkat kepentingan atau kontribusi variabel pada model. Ada beberapa cara untuk mengevaluasi feature importance. Gini importance dan rata-rata penurunan ketidakmurnian (MDI) biasanya digunakan untuk mengukur seberapa besar penurunan akurasi model ketika variabel tertentu dikeluarkan. Namun, permutation importance yang juga dikenal sebagai rata-rata penurunan akurasi (MDA) juga merupakan ukuran yang penting. MDA mengidentifikasi rata-rata penurunan akurasi dengan secara acak mempermutasi nilai fitur dalam sampel oob.

Tantangan Utama

Proses yang memakan waktu: Karena algoritma random forest dapat menangani kumpulan data yang besar, algoritma ini dapat memberikan prediksi yang lebih akurat, tetapi bisa jadi lambat dalam memproses data karena algoritma ini mengkomputasi data untuk setiap decision trees.
Membutuhkan lebih banyak sumber daya: Karena random forest memproses kumpulan data yang lebih besar, mereka akan membutuhkan lebih banyak sumber daya untuk menyimpan data tersebut.
Lebih kompleks: Prediksi Decision Tree tunggal lebih mudah ditafsirkan jika dibandingkan dengan hutan decision trees.

Akademi AI

Manfaatkan AI untuk layanan pelanggan

Lihat bagaimana AI generatif dapat menyenangkan pelanggan dengan pengalaman yang lebih mulus dan meningkatkan produktivitas organisasi di tiga area utama ini: layanan mandiri, agen manusia, dan operasi pusat kontak.

Buka episode

Penerapan random forest

Algoritma random forest telah diterapkan di sejumlah industri, sehingga memungkinkannya membuat keputusan bisnis yang lebih baik. Beberapa contoh penggunaannya meliputi:

Keuangan: Algoritma ini yang lebih disukai daripada yang lain karena mengurangi waktu yang dihabiskan untuk manajemen data dan tugas-tugas pra-pemrosesan. Algoritma ini dapat digunakan untuk mengevaluasi pelanggan dengan risiko kredit tinggi, untuk mendeteksi penipuan, dan masalah harga opsi.
Layanan kesehatan: Algoritma random forest diaplikasikan dalam biologi komputasional, yang memungkinkan dokter untuk mengatasi masalah seperti klasifikasi ekspresi gen, penemuan biomarker, dan anotasi urutan. Hasilnya, dokter dapat membuat estimasi seputar respons obat terhadap pengobatan tertentu.
E-commerce: Dapat digunakan sebagai mesin rekomendasi untuk tujuan penjualan silang.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu random forest?

Penulis

Apa itu random forest?

Pohon keputusan

Metode ansambel

Algoritma random forest

Cara kerjanya

Manfaat dan tantangan random forest

Manfaat Utama

Tantangan Utama

Manfaatkan AI untuk layanan pelanggan

Penerapan random forest

Sumber daya