Apa itu XGBoost?

XGBoost (eXtreme Gradient Boosting) adalah pustaka machine learning sumber terbuka terdistribusi yang menggunakan struktur keputusan, algoritma peningkatan pembelajaran diawasi yang memanfaatkan gradient descent. Ia dikenal karena kecepatan, efisiensi, dan kemampuannya untuk menskalakan dengan baik dengan kumpulan data yang besar.

Dikembangkan oleh Tianqi Chen dari University of Washington, XGBoost adalah implementasi lanjutan dari gradient boosting dengan kerangka kerja umum yang sama; yaitu menggabungkan pohon pembelajar yang lemah menjadi pembelajar yang kuat dengan menjumlahkan residu. Pustaka ini tersedia untuk C++, Python, R, Java, Scala, dan Julia¹.

Struktur keputusan vs peningkatan

Struktur keputusan digunakan untuk klasifikasi atau regresi tugas di machine learning. Mereka menggunakan struktur pohon hierarkis di mana node internal menunjukkan fitur, cabang menunjukkan aturan keputusan, dan setiap node daun menunjukkan hasil kumpulan data.

Karena struktur keputusan rentan terhadap overfitting, metode ensambel, seperti boosting, sering kali dapat digunakan untuk membuat model yang lebih kuat. Peningkatan menggabungkan beberapa pohon lemah terpisah—yaitu, model yang berkinerja sedikit lebih baik daripada peluang acak, untuk membentuk pembelajar yang kuat. Setiap pembelajar yang lemah dilatih secara berurutan untuk memperbaiki kesalahan yang dibuat oleh model sebelumnya. Setelah ratusan iterasi, pembelajar yang lemah diubah menjadi pembelajar yang kuat.

Random forest dan algoritma peningkatan keduanya merupakan teknik pembelajaran ensambel populer yang menggunakan pohon tiap pembelajar untuk meningkatkan kinerja prediktif. Random forest didasarkan pada konsep bagging (agregasi bootstrap) dan melatih setiap pohon secara independen untuk menggabungkan prediksi mereka, sementara algoritma penguatan menggunakan pendekatan aditif di mana pembelajar yang lemah dilatih secara berurutan untuk memperbaiki kesalahan model sebelumnya.

Meningkatkan - pembelajaran ansambel berurutan

Struktur keputusan dioptimalkan dengan gradient boost

Struktur keputusan di mana gradient boost diterapkan adalah jenis algoritma peningkatan yang menggunakan gradient descent. Seperti metodologi peningkatan lainnya, peningkatan gradien dimulai dengan pembelajar yang lemah untuk membuat prediksi. Struktur keputusan pertama dalam gradient boosting disebut pembelajar dasar. Selanjutnya, pohon baru dibuat dengan cara aditif berdasarkan kesalahan pembelajar dasar. Algoritma ini kemudian menghitung residu dari prediksi setiap pohon untuk menentukan seberapa jauh prediksi model dari kenyataan. Residu adalah perbedaan antara nilai prediksi model dan nilai aktual. Residu kemudian digabungkan untuk menilai model dengan fungsi kesalahan.

Dalam machine learning, fungsi kesalahan digunakan untuk mengukur kinerja model. Gradien dalam struktur keputusan yang diterapkan gradient boost mengacu pada gradient descent. Gradient descent digunakan untuk meminimalkan kerugian (yaitu untuk meningkatkan kinerja model) ketika melatih model baru. Gradient descent adalah algoritma pengoptimalan populer yang digunakan untuk meminimalkan fungsi kesalahan dalam masalah machine learning. Beberapa contoh fungsi kesalahan termasuk rata-rata kuadrat kesalahan atau rata-rata absolut kesalahan untuk masalah regresi, kesalahan lintas entropi untuk masalah klasifikasi, atau fungsi kesalahan khusus dapat dikembangkan untuk contoh penggunaan dan kumpulan data tertentu.

Fitur XGBoost

Berikut adalah diskusi tentang beberapa fitur XGBoost di Python yang membuatnya lebih menonjol dibandingkan dengan paket peningkatan gradien normal di scikit-learn²:

Komputasi paralel dan terdistribusi: Pustaka menyimpan data dalam unit di dalam memori yang disebut blok. Blok terpisah dapat didistribusikan di seluruh mesin atau disimpan di memori eksternal menggunakan komputasi di luar memori. XGBoost juga memungkinkan contoh penggunaan yang lebih canggih, seperti pelatihan terdistribusi di sekelompok komputer untuk mempercepat komputasi. XGBoost juga dapat diimplementasikan dalam mode terdistribusi menggunakan alat seperti Apache Spark, Dask, atau Kubernetes.
Algoritma prefetching yang sadar cache: XGBoost menggunakan algoritma prefetching sadar cache yang membantu mengurangi waktu proses untuk kumpulan data yang besar. Pustaka dapat berjalan lebih dari sepuluh kali lebih cepat daripada kerangka kerja lain yang ada pada satu mesin. Karena kecepatannya yang mengesankan, XGBoost dapat memproses miliaran contoh dengan menggunakan sumber daya yang lebih sedikit, sehingga menjadikannya sistem peningkatan pohon yang dapat diskalakan.
Regularisasi bawaan: XGBoost menyertakan regularisasi sebagai bagian dari tujuan pembelajaran, tidak seperti gradient boosting reguler. Data juga dapat diatur melalui penyetelan hiperparameter. Menggunakan regularisasi bawaan XGBoost juga memungkinkan pustaka untuk memberikan hasil yang lebih baik daripada paket gradient boosting scikit-learn biasa.
Menangani missing values: XGBoost menggunakan algoritma yang sadar sparsity untuk data yang jarang. Ketika sebuah nilai missing values dalam kumpulan data, titik data diklasifikasikan ke dalam arah default dan algoritma mempelajari arah terbaik untuk menangani missing values.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Cara kerja XGBoost

Pada bagian ini, kita akan membahas cara menggunakan paket XGBoost, cara memilih hyperparameter untuk peningkat pohon XGBoost, bagaimana XGBoost dibandingkan dengan implementasi peningkat lainnya dan beberapa contoh penggunaannya.

Memisahkan data Anda dan mengonversinya ke format DMatrix

Dengan asumsi Anda telah melakukan analisis data eksplorasi pada data Anda, lanjutkan dengan membagi data Anda antara kumpulan data pelatihan dan kumpulan data pengujian. Selanjutnya, konversikan data Anda ke format DMatrix yang diharapkan oleh XGBoost³. DMatrix adalah struktur data internal XGBoost yang dioptimalkan untuk efisiensi memori dan kecepatan pelatihan⁴.

Menghasilkan dan mengevaluasi model

Selanjutnya, instansikan model XGBoost dan, tergantung pada contoh penggunaan Anda, pilih fungsi objektif mana yang ingin Anda gunakan melalui hyperparameter "object". Sebagai contoh, jika Anda memiliki tugas klasifikasi multi-kelas, Anda harus menetapkan tujuan ke "multi:softmax"⁵. Atau, jika Anda memiliki masalah klasifikasi biner, Anda dapat menggunakan tujuan regression logistik “binary:logistic”. Sekarang Anda dapat menggunakan set pelatihan Anda untuk melatih model dan memprediksi klasifikasi untuk data yang disisihkan sebagai set pengujian. Menilai kinerja model dengan membandingkan nilai yang diprediksi dengan nilai aktual set uji. Anda dapat menggunakan metrik seperti akurasi, presisi, mengingat, atau skor f-1 untuk mengevaluasi model Anda. Anda mungkin juga ingin memvisualisasikan positif sejati, negatif sejati, positif palsu, dan negatif palsu menggunakan matriks kebingungan.

Penyetelan hiperparameter

Selanjutnya, Anda mungkin ingin mengulangi melalui kombinasi hiperparameter untuk membantu meningkatkan kinerja model Anda. Penyetelan hiperparameter adalah proses optimasi untuk hiperparameter algoritma machine learning. Hiperparameter terbaik dapat ditemukan menggunakan metode pencarian grid dan validasi silang, yang akan diulang melalui kamus kemungkinan opsi penyetelan hiperparameter.

Hiperparameter yang dipilih untuk pohon dioptimalkan dengan gradient boost di XGBoost

Berikut ini adalah penjelasan mengenai beberapa hyperparameter yang tersedia untuk disetel pada pohon yang ditingkatkan gradien di XGBoost:

Laju pembelajaran (dikenal juga sebagai "ukuran langkah" atau "penyusutan"), adalah hiperparameter gradient boosting yang paling penting. Dalam pustaka XGBoost, ini dikenal sebagai "eta", harus berupa angka antara 0 dan 1 dan defaultnya adalah 0,3⁶. Laju pembelajaran menentukan tingkat di mana algoritma peningkatan belajar dari setiap iterasi. Nilai eta yang lebih rendah berarti pembelajaran yang lebih lambat, karena mengurangi kontribusi setiap pohon dalam ensambel, sehingga membantu mencegah overfitting. Sebaliknya, nilai eta yang lebih tinggi mempercepat pembelajaran, tetapi dapat menyebabkan overfitting jika tidak disetel dengan hati-hati.
Hiperparameter n_estimators menentukan jumlah pohon yang akan dibangun dalam ensambel. Tiap putaran peningkatan menambahkan pohon baru ke dalam keseluruhan dan model perlahan belajar memperbaiki kesalahan yang dibuat oleh pohon sebelumnya. N_estimators mengarahkan kompleksitas model dan memengaruhi waktu pelatihan dan kemampuan model untuk digeneralisasi ke data yang tidak terlihat. Meningkatkan nilai n_estimators biasanya meningkatkan kompleksitas model, karena memungkinkan model untuk menangkap pola yang lebih rumit dalam data. Akan tetapi, menambahkan terlalu banyak pohon dapat mengakibatkan overfitting. Sebagai contoh umum, seiring bertambahnya n_estimators, maka laju pembelajaran akan menurun.
Gamma (dikenal juga sebagai pengganda Lagrange atau parameter pengurangan kesalahan minimum) mengontrol jumlah minimum pengurangan kesalahan yang diperlukan untuk membuat pemisahan lebih lanjut pada node daun pohon. Nilai yang lebih rendah berarti XGBoost berhenti lebih awal tetapi mungkin tidak menemukan solusi terbaik; sementara nilai yang lebih tinggi berarti XGBoost melanjutkan pelatihan lebih lama, berpotensi menemukan solusi yang lebih baik, tetapi dengan risiko yang lebih besar untuk overfitting. Tidak ada batas atas untuk gamma. Default di XGBoost adalah 0 dan apa pun di atas 10 dianggap tinggi.
Max_depth merepresentasikan seberapa dalam setiap pohon dalam proses peningkatan yang dapat tumbuh selama pelatihan. Kedalaman pohon mengacu pada jumlah level atau perpecahan yang dimilikinya dari node akar ke node daun. Meningkatkan nilai ini akan membuat model lebih kompleks dan lebih mungkin mengalami overfit. Di XGBoost, max_depth default adalah 6, yang berarti bahwa setiap pohon dalam model diizinkan untuk tumbuh hingga kedalaman maksimum 6 level.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Membandingkan XGBoost dengan algoritma penguatan lainnya

XGBoost adalah salah satu dari banyak algoritma peningkatan sumber terbuka yang tersedia. Pada bagian ini, kita akan membandingkan XGBoost dengan tiga kerangka kerja peningkatan lainnya.

XGBoost vs AdaBoost

AdaBoost adalah algoritma peningkatan awal yang ditemukan oleh Yoav Freund dan Robert Schapire pada tahun 1995⁷. Dalam AdaBoost, lebih banyak penekanan diberikan pada prediksi yang salah melalui sistem bobot yang memengaruhi titik data yang lebih sulit diprediksi secara lebih signifikan. Pertama, setiap titik data dalam kumpulan data diberi bobot tertentu. Ketika pembelajar yang lemah memprediksi contoh dengan benar, bobot contoh berkurang. Tetapi jika pembelajar salah mendapatkan contoh, bobot untuk titik data itu meningkat. Saat pohon baru dibuat, bobotnya didasarkan pada kesalahan klasifikasi pohon pembelajar sebelumnya. Dengan bertambahnya jumlah pembelajar, sampel yang mudah diprediksi akan lebih sedikit digunakan untuk peserta didik berikutnya, sementara titik data yang lebih sulit diprediksi akan diberi bobot yang lebih besar. Peningkatan gradien dan XGBoost cenderung menjadi alternatif yang lebih kuat untuk AdaBoost karena akurasi dan kecepatannya.

XGBoost vs CatBoost

CatBoost adalah kerangka kerja peningkat gradien lainnya. Dikembangkan oleh Yandex pada tahun 2017, aplikasi ini berspesialisasi dalam menangani fitur kategorikal tanpa perlu prepemrosesan dan umumnya bekerja dengan baik di luar kotak tanpa perlu melakukan penyetelan hyperparameter yang ekstensif⁸. Seperti XGBoost, CatBoost telah membangun dukungan untuk menangani data yang hilang. CatBoost sangat berguna untuk kumpulan data dengan banyak fitur kategoris. Menurut Yandex, kerangka kerja ini digunakan untuk pencarian, sistem rekomendasi, asisten pribadi, mobil tanpa pengemudi, prediksi cuaca, dan tugas-tugas lainnya.

XGBoost vs LightGBM

LightGBM (Light Gradient Boosting Machine) adalah algoritma penguatan gradien terakhir yang akan kami ulas. LightGBM dikembangkan oleh Microsoft dan pertama kali dirilis pada tahun 2016⁹. Di mana sebagian besar algoritme pembelajaran decision trees menumbuhkan pohon berdasarkan kedalaman, LightGBM menggunakan strategi pertumbuhan pohon berdasarkan daun¹⁰. Seperti XGBoost, LightGBM menunjukkan kecepatan dan akurasi pelatihan model yang cepat dan berkinerja baik dengan kumpulan data besar.

Aplikasi XGBoost

XGBoost dan decision trees yang ditingkatkan gradien digunakan di berbagai aplikasi ilmu data, termasuk:

Belajar memeringkat: Salah satu contoh penggunaan yang paling populer untuk algoritma XGBoost adalah sebagai pemeringkat. Dalam pengambilan informasi, tujuan belajar memeringkat adalah untuk menyajikan konten pengguna yang diurutkan berdasarkan relevansi. Di XGBoost, XGBRanker didasarkan pada algoritma LambdaMART¹¹.
Prediksi rasio klik-tayang iklan: Para peneliti menggunakan model terlatih XGBoost untuk menentukan seberapa sering iklan online diklik dalam 10 hari data klik-tayang. Tujuan dari penelitian ini adalah untuk mengukur efektivitas iklan online dan menentukan iklan mana yang berfungsi dengan baik¹².
Prediksi penjualan toko: XGBoost dapat digunakan untuk pemodelan prediktif, seperti yang ditunjukkan dalam makalah ini di mana penjualan dari 45 toko Walmart diprediksi menggunakan model XGBoost¹³.
Klasifikasi malware: Dengan menggunakan pengklasifikasi XGBoost, para insinyur di Technical University of Košice mampu mengklasifikasikan malware secara akurat, seperti yang ditunjukkan dalam makalah mereka¹⁴.
Kompetisi Kaggle: XGBoost telah menjadi algoritma pemenang yang populer di kompetisi Kaggle, seperti yang tercatat di halaman DMLC (Distributed (Deep) Machine Learning Community) yang menampilkan daftar pemenang kompetisi Kaggle baru-baru ini yang menggunakan XGBoost untuk entri mereka¹⁵.

Ilmu data dan MLOP untuk pemimpin data

Bergabunglah dengan para pemimpin lain untuk mendorong tiga pilar penting MLOP dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Apa itu XGBoost?

Apa itu XGBoost?

Struktur keputusan vs peningkatan

Struktur keputusan dioptimalkan dengan gradient boost

Fitur XGBoost

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Cara kerja XGBoost

Memisahkan data Anda dan mengonversinya ke format DMatrix

Menghasilkan dan mengevaluasi model

Penyetelan hiperparameter

Hiperparameter yang dipilih untuk pohon dioptimalkan dengan gradient boost di XGBoost

Decoding AI: Rangkuman Berita Mingguan

Membandingkan XGBoost dengan algoritma penguatan lainnya

XGBoost vs AdaBoost

XGBoost vs CatBoost

XGBoost vs LightGBM

Aplikasi XGBoost

Sumber daya