Sebelum menyelami penurunan gradien, kita perlu meninjau beberapa konsep dari regresi linier. Anda mungkin ingat rumus berikut untuk kemiringan garis, yaitu y = mx + b, di mana m mewakili kemiringan dan b adalah intersep pada sumbu y.
Anda mungkin juga ingat memetakan scatterplot dalam statistik dan menemukan garis kecocokan terbaik, yang memerlukan penghitungan kesalahan antara hasil aktual dan hasil prediksi (y-hat) menggunakan rumus kesalahan kuadrat rata-rata. Algoritma penurunan gradien berperilaku serupa, tetapi didasarkan pada fungsi cembung.
Titik awal hanyalah titik sembarang bagi kita untuk mengevaluasi kinerja. Dari titik awal tersebut, kita akan menemukan turunan (atau kemiringan), dan dari sana, kita bisa menggunakan garis singgung untuk mengamati kecuraman lereng. Kemiringan akan menginformasikan pembaruan pada parameter model—yaitu bobot dan bias. Kemiringan pada titik awal akan lebih curam, tetapi ketika parameter baru dihasilkan, kecuraman akan berkurang secara bertahap hingga mencapai titik terendah pada kurva, yang dikenal sebagai titik konvergensi.
Mirip dengan menemukan garis yang paling sesuai dalam regresi linier, tujuan penurunan gradien adalah meminimalkan fungsi biaya, atau kesalahan antara y prediksi dan aktual. Untuk melakukan hal ini diperlukan dua titik data—arah dan laju pembelajaran. Kedua faktor ini menentukan perhitungan turunan parsial dari iterasi mendatang, sehingga memungkinkannya untuk secara bertahap mencapai nilai minimum lokal atau global (yaitu titik konvergensi).
- Laju pembelajaran (disebut juga sebagai ukuran langkah atau alfa) adalah ukuran langkah yang diambil untuk mencapai nilai minimum. Nilai ini biasanya kecil serta dievaluasi dan diperbarui berdasarkan perilaku fungsi biaya. Laju pembelajaran yang tinggi menghasilkan langkah yang lebih besar tetapi berisiko melampaui nilai minimum. Sebaliknya, laju pembelajaran yang rendah memiliki ukuran langkah kecil. Meskipun memiliki keunggulan presisi yang lebih tinggi, namun jumlah iterasi mengorbankan efisiensi secara keseluruhan, karena memerlukan lebih banyak waktu dan komputasi untuk mencapai nilai minimum.
- Fungsi biaya (atau kerugian) mengukur perbedaan, atau kesalahan, antara y aktual dan y prediksi pada posisi saat ini. Hal ini meningkatkan keefektifan model machine learning dengan memberikan masukan kepada model sehingga model dapat menyesuaikan parameter untuk meminimalkan kesalahan dan menemukan minimum lokal atau global. Proses ini berulang terus-menerus, bergerak di sepanjang arah penurunan paling curam (atau gradien negatif) sampai fungsi biaya mendekati atau berada di titik nol. Pada titik ini, model akan berhenti belajar. Selain itu, meskipun istilah fungsi biaya dan fungsi kehilangan dianggap sama, ada sedikit perbedaan di antara keduanya. Perlu dicatat bahwa fungsi kehilangan mengacu pada kesalahan dari satu contoh pelatihan, sementara fungsi biaya menghitung kesalahan rata-rata di seluruh rangkaian pelatihan.