Regresi ridge merupakan teknik regularisasi statistik. Teknik ini mengoreksi overfitting pada data pelatihan dalam model machine learning.
Regresi ridge—juga dikenal sebagai regularisasi L2—adalah salah satu dari beberapa jenis regularisasi untuk model regresi linier. Regularisasi adalah metode statistik untuk mengurangi kesalahan yang disebabkan oleh overfitting pada data pelatihan. Regresi ridge secara khusus mengoreksi multikolinearitas dalam analisis regresi. Hal ini berguna ketika mengembangkan model machine learning yang memiliki sejumlah besar parameter, terutama jika parameter tersebut juga memiliki bobot yang tinggi. Sementara artikel ini berfokus pada regularisasi model regresi linier, perhatikan bahwa regresi ridge juga dapat diterapkan dalam regresi logistik.
Persamaan regression linier multi-variabel standar adalah:
Di sini, Y adalah nilai prediksi (variabel dependen), X adalah prediktor apa pun (variabel independen), B adalah koefisien regresi yang melekat pada variabel independen tersebut, dan X0 adalah nilai variabel dependen ketika variabel independen sama dengan nol (juga disebut perpotongan y). Perhatikan bagaimana koefisien menandai hubungan antara variabel dependen dan variabel independen yang diberikan.
Multikolinearitas menandakan bahwa dua atau lebih prediktor memiliki hubungan mendekati linier. Montgomery dkk. memberikan satu contoh yang tepat: Bayangkan kita menganalisis kumpulan data pengiriman rantai pasokan di mana pengiriman jarak jauh secara teratur berisi sejumlah besar barang, sementara pengiriman jarak pendek selalu berisi persediaan yang lebih kecil. Dalam hal ini, jarak pengiriman dan kuantitas barang berkorelasi linier, seperti yang ditunjukkan pada Gambar 1. Ini menciptakan masalah ketika menggunakan ini sebagai variabel independen dalam model prediktif tunggal.
Ini hanya salah satu contoh multikolinearitas, dan cara mengatasinya relatif sederhana: kumpulkan data yang lebih beragam (misalnya data untuk pengiriman jarak pendek dengan persediaan yang besar). Mengumpulkan lebih banyak data tidak selalu menjadi solusi yang tepat, seperti ketika multikolinearitas merupakan hal yang melekat pada data yang diteliti. Pilihan lain untuk memperbaiki multikolinearitas termasuk meningkatkan ukuran sampel, mengurangi jumlah variabel independen, atau cukup menggunakan model yang berbeda. Namun, perbaikan tersebut tidak selalu berhasil menghilangkan multikolinearitas, dan regresi ridge berfungsi sebagai metode lain untuk meregresikan model untuk mengatasi multikolinearitas.1
Ketika mengembangkan model prediktif, kita sering kali perlu menghitung koefisien, karena koefisien tidak secara eksplisit dinyatakan dalam data pelatihan. Untuk memperkirakan koefisien, kita dapat menggunakan estimator koefisien matriks kuadrat terkecil biasa (OLS) standar:
Mengetahui operasi rumus ini membutuhkan keakraban dengan notasi matriks. Bisa dikatakan, rumus ini bertujuan untuk menemukan garis yang paling sesuai untuk kumpulan data yang diberikan dengan menghitung koefisien untuk setiap variabel independen yang secara kolektif menghasilkan jumlah kuadrat residu terkecil (juga disebut jumlah kuadrat kesalahan).2
Jumlah kuadrat residual (RSS) mengukur seberapa cocok model regresi linier dengan data pelatihan. Hal ini diwakili oleh formulasi:
Rumus ini mengukur akurasi prediksi model untuk nilai kebenaran dasar dalam data pelatihan. Jika RSS = 0, model memprediksi variabel dependen dengan sempurna. Namun, skor nol tidak selalu diinginkan, karena dapat menunjukkan overfitting pada data pelatihan, terutama jika kumpulan data pelatihan kecil. Multikolinearitas mungkin menjadi salah satu penyebabnya.
Perkiraan koefisien yang tinggi seringkali dapat menjadi gejala overfitting.3 Jika dua atau lebih variabel berbagi korelasi linier yang tinggi, OLS dapat mengembalikan koefisien nilai tinggi secara keliru. Ketika satu atau beberapa koefisien terlalu tinggi, output model menjadi sensitif terhadap perubahan kecil pada data input. Dengan kata lain, model tersebut telah melakukan overfitting pada set pelatihan tertentu dan gagal menggeneralisasi secara akurat pada set pengujian yang baru. Model seperti ini dianggap tidak stabil.4
Regresi ridge memodifikasi OLS dengan menghitung koefisien yang memperhitungkan prediktor yang berpotensi berkorelasi. Secara khusus, regresi ridge mengoreksi koefisien bernilai tinggi dengan memperkenalkan suku regularisasi (sering disebut suku penalti) ke dalam fungsi RSS. Suku penalti ini adalah jumlah kuadrat koefisien model.5 Hal ini diwakili dalam formulasi:
Suku penalti L2 dimasukkan sebagai akhir dari fungsi RSS, yang menghasilkan formulasi baru, estimator regresi ridge. Di dalamnya, efeknya pada model dikendalikan oleh hyperparameter lambda (λ):
Ingatlah bahwa koefisien menandai efek prediktor tertentu (yaitu, variabel independen) terhadap nilai prediksi (yaitu, variabel dependen). Setelah ditambahkan ke dalam rumus RSS, suku penalti L2 menetralkan koefisien yang sangat tinggi dengan mengurangi semua nilai koefisien. Dalam statistik, ini disebut penyusutan koefisien. Dengan demikian, estimator ridge di atas menghitung koefisien regresi baru yang mengurangi RSS model tertentu. Ini meminimalkan setiap efek prediktor dan mengurangi overfitting pada data pelatihan.6
Perhatikan bahwa regresi ridge tidak menyusutkan setiap koefisien dengan nilai yang sama. Sebaliknya, koefisien menyusut sebanding dengan ukuran awalnya. Ketika λ meningkat, koefisien bernilai tinggi menyusut pada tingkat yang lebih besar daripada koefisien bernilai rendah.7 Dengan demikian, koefisien bernilai tinggi mendapat penalti lebih besar daripada koefisien bernilai rendah.
Perhatikan bahwa penalti L2 mengecilkan koefisien ke arah nol tetapi tidak pernah menjadi nol mutlak; meskipun bobot fitur model dapat menjadi sangat kecil, bobot tersebut tidak pernah sama dengan nol dalam regresi ridge. Mengurangi koefisien menjadi nol secara efektif menghilangkan prediktor yang dipasangkan dari model. Hal ini disebut seleksi fitur, yang merupakan cara lain untuk mengoreksi multikolinieritas.8 Karena regresi ridge tidak mengurangi koefisien regresi menjadi nol, maka regresi ini tidak melakukan seleksi fitur.9 Hal ini sering disebut sebagai kelemahan regresi ridge. Selain itu, kelemahan lain yang sering disebut adalah ketidakmampuan regresi ridge untuk memisahkan efek prediktor dalam menghadapi multikolinieritas yang parah.10
Regresi lasso—juga disebut regularisasi L1—adalah salah satu dari beberapa metode regularisasi lainnya dalam regresi linier. Regulerisasi L1 bekerja dengan mengurangi koefisien menjadi nol, yang pada dasarnya menghilangkan variabel-variabel independen dari model. Baik regresi lasso maupun regresi ridge dengan demikian mengurangi kompleksitas model, meskipun dengan cara yang berbeda. Regresi lasso mengurangi jumlah variabel independen yang mempengaruhi output. Regresi ridge mengurangi bobot yang dimiliki setiap variabel independen pada output.
Jaring elastis adalah bentuk tambahan dari regularisasi. Sementara regresi ridge mendapatkan parameter regularisasinya dari jumlah kuadrat kesalahan dan lasso mendapatkan parameternya sendiri dari jumlah nilai absolut kesalahan, jaring elastis menggabungkan kedua parameter regularisasi ke dalam fungsi biaya RSS.11
Principal component regression (PCR) juga dapat bertindak sebagai prosedur regularisasi. Meskipun dapat mengatasi multikolinieritas, PCR tidak melakukannya dengan memberlakukan penalti pada fungsi RSS seperti pada regresi ridge dan lasso. Sebaliknya, PCR menghasilkan kombinasi linier dari prediktor yang berkorelasi untuk membuat model kuadrat terkecil yang baru.12
Dalam machine learning, regresi ridge membantu mengurangi overfitting yang dihasilkan dari kompleksitas model. Kompleksitas model dapat disebabkan oleh:
Model yang lebih sederhana secara intrinsik tidak berkinerja lebih baik daripada model yang kompleks. Namun demikian, tingkat kompleksitas model yang tinggi dapat menghambat kemampuan model untuk menggeneralisasi data baru di luar set pelatihan.
Karena tidak melakukan seleksi fitur, regresi ridge tidak dapat mengurangi kompleksitas model dengan menghilangkan fitur. Tetapi jika satu atau lebih fitur terlalu mempengaruhi hasil model, regresi dapat mengecilkan bobot fitur tinggi (yaitu, koefisien) di seluruh model per suku penalti L2. Hal ini mengurangi kompleksitas model dan membantu membuat prediksi model tidak terlalu bergantung pada satu atau beberapa fitur.
Dalam istilah machine learning, regresi ridge berarti menambahkan bias ke dalam model dengan tujuan mengurangi varians model tersebut. Pertukaran bias-varians adalah masalah yang terkenal dalam machine learning. Untuk memahami pertukaran bias-varian, terlebih dahulu perlu diketahui apa arti "bias" dan "varians" masing-masing dalam riset machine learning.
Singkatnya: bias mengukur perbedaan rata-rata antara nilai prediksi dan nilai sebenarnya; varians mengukur perbedaan antara prediksi di berbagai realisasi model yang diberikan. Saat bias meningkat, model memprediksi kurang akurat pada kumpulan data pelatihan. Saat varians meningkat, model memprediksi kurang akurat pada kumpulan data lain. Bias dan varians masing-masing mengukur akurasi model pada set pelatihan dan uji. Jelas, pengembang berharap untuk mengurangi bias dan varians model. Namun, pengurangan keduanya secara bersamaan tidak selalu memungkinkan, dan dengan demikian diperlukan teknik regularisasi seperti regresi ridge.
Seperti disebutkan, regularisasi regresi ridge memperkenalkan bias tambahan demi penurunan varians. Dengan kata lain, model yang diregulasi melalui regresi ridge menghasilkan prediksi yang kurang akurat pada data pelatihan (bias yang lebih tinggi) tetapi menghasilkan prediksi yang lebih akurat pada data pengujian (varians yang lebih rendah). Ini adalah pertukaran bias-varian. Melalui regresi ridge, pengguna menentukan kerugian yang dapat diterima dalam akurasi pelatihan (bias yang lebih tinggi) untuk meningkatkan generalisasi model yang diberikan (varians yang lebih rendah).13 Dengan cara ini, meningkatkan bias dapat membantu meningkatkan kinerja model secara keseluruhan.
Kekuatan penalti L2, dan dengan demikian pertukaran bias-varian model, ditentukan oleh nilai λ dalam persamaan fungsi kerugian estimator ridge. Jika λ adalah nol, maka satu dibiarkan dengan fungsi kuadrat terkecil biasa. Ini menciptakan model regresi standar tanpa regularisasi apa pun. Sebaliknya, nilai λ yang lebih tinggi berarti lebih banyak regularisasi. Saat λ meningkat, bias model meningkat sementara varians menurun. Dengan demikian, ketika λ sama dengan nol, model overfit pada data pelatihan, tetapi ketika λ terlalu tinggi, model underfit pada semua data.14
Kesalahan kuadrat rata-rata (MSE) dapat membantu menentukan nilai λ yang sesuai. MSE terkait erat dengan RSS dan merupakan cara untuk mengukur perbedaan, secara rata-rata, antara nilai yang diprediksi dan nilai sebenarnya. Semakin rendah MSE suatu model, semakin akurat prediksinya. Namun MSE meningkat seiring dengan peningkatan λ. Meskipun demikian, dikemukakan bahwa selalu ada nilai λ yang lebih besar dari nol sehingga MSE yang diperoleh melalui regresi ridge lebih kecil daripada yang diperoleh melalui OLS.15 Salah satu metode untuk menyimpulkan nilai λ yang sesuai adalah dengan menemukan nilai tertinggi untuk λ yang tidak meningkatkan MSE, seperti yang diilustrasikan dalam Gambar 2. Teknik validasi silang tambahan dapat membantu pengguna memilih nilai λ yang optimal untuk menyempurnakan model mereka.16
Model regresi ridge paling baik digunakan saat berhadapan dengan kumpulan data yang memiliki dua atau lebih fitur yang berkorelasi. Selain itu, banyak bidang yang menggunakan regresi ridge untuk menangani model dengan jumlah prediktor yang lebih besar dan kumpulan data pelatihan yang kecil.17 Situasi seperti itu bisa sangat umum terjadi saat menangani berbagai data.
Studi biologi komputasi dan genetika sering kali berurusan dengan model-model yang jumlah prediktornya jauh lebih banyak daripada jumlah sampel kumpulan data, terutama ketika menyelidiki ekspresi genetik. Regresi ridge menyediakan satu cara untuk mengatasi kompleksitas model tersebut dengan mengurangi bobot total dari berbagai fitur ini, sehingga memampatkan rentang prediksi model.
Banyak sekali prediktor yang menentukan harga jual akhir sebuah rumah dan banyak di antaranya berkorelasi, seperti jumlah kamar tidur dan kamar mandi. Fitur yang sangat berkorelasi menyebabkan koefisien regresi yang tinggi dan overfitting pada data pelatihan. Regresi ridge mengoreksi bentuk kompleksitas model ini dengan mengurangi bobot fitur total pada nilai prediksi akhir model.
Ini hanya dua contoh dalam disiplin ilmu data yang lebih luas. Namun, seperti yang diilustrasikan oleh kedua contoh ini, Anda dapat menggunakan regresi secara efektif dalam situasi di mana Anda memiliki lebih banyak fitur model daripada sampel data atau ketika model Anda memiliki dua atau lebih fitur yang sangat berkorelasi.
Penelitian terbaru mengeksplorasi varian modifikasi dari regresi ridge untuk tujuan melakukan seleksi fitur.18 Bentuk regresi ridge yang dimodifikasi ini menggunakan parameter regularisasi yang berbeda pada setiap koefisien. Dengan cara ini, seseorang dapat mempenalti bobot fitur secara individual, dan dengan demikian berpotensi mengimplementasikan seleksi fitur melalui regresi ridge.19
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
Jelajahi pendekatan pembelajaran yang diawasi seperti mesin vendor pendukung dan pengklasifikasi probabilistik.
Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
1 Douglas C. Montgomery, Elizabeth A. Peck, dan G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.
2 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, Edisi ke-2, Springer, 2021.
3 Wessel N. van Wieringen, Catatan kuliah tentang regresi ridge, 2023, https://arxiv.org/pdf/1509.09169.pdf
4 A. K. Md. Ehsanes Saleh, Mohammad Arashi, dan B. M. Golam Kibria, Theory of Ridge Regression Estimation with Applications, Wiley, 2019.
5 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, Edisi ke-2, Springer, 2021.
6 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
7 AK Md. Ehsanes Saleh, Mohammad Arashi, Resve A. Saleh, dan Mina Norouzirad, Rank-Based Methods for Shrinkage and Selection: With Application to Machine Learning, Wiley, 2022.
8 Douglas C. Montgomery, Elizabeth A. Peck, dan G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.
9 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
10 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, dan Brian D. Marx, Regression: Models, Methods and Applications, edisi ke-2, Springer, 2021.
11 Hui Zou and Trevor Hastie, “Regularization and Variable Selection via the Elastic Net,” Journal of the Royal Statistical Society, Vol. 67, No. 2, 2005, hlm. 301–320, https://academic.oup.com/jrsssb/article/67/2/301/7109482
12 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, Edisi ke-2, Springer, 2021.
13 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
14 Gianluigi Pillonetto, Tianshi Chen, Alessandro Chiuso, Giuseppe De Nicolao, dan Lennart Ljung, Regularized System Identification: Learning Dynamic Models from Data, Springer, 2022.
15 Arthur E. Hoerl and Robert W. Kennard, “Ridge Regression: Biased Estimation for Nonorthogonal Problems,” Technometrics, Vol. 12, No. 1, Feb. 1970, hlm. 55-67, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254
16 Wessel N. van Wieringen, Catatan kuliah tentang regresi ridge, 2023, https://arxiv.org/pdf/1509.09169.pdf
17 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, dan Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.
18 Yichao Wu, “Can’t Ridge Regression Perform Variable Selection?” Technometrics, Vol. 63, No. 2, 2021, hlm. 263–271, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254
19 Danielle C. Tucker, Yichao Wu, and Hans-Georg Müller, “Variable Selection for Global Fréchet Regression,” Journal of American Statistical Association, 2021, https://www.tandfonline.com/doi/abs/10.1080/01621459.2021 .1969240
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com