My IBM Log in اشترك

ما هو الضبط؟

16 نوفمبر 2023

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

ما هو الضبط؟

الضبط عبارة عن مجموعة من الأساليب لتقليل التجاوز في نماذج التعلم الآلي. وفي أسلوب الضبط، يتعمد الشخص حدوث خفض هامشي في دقة التدريب في مقابل زيادة قابلية التعميم.

إذ يشتمل الضبط على مجموعة من الأساليب لتصحيح إفراط الملاءمة في نماذج التعلم الآلي. وبهذا الشكل، يُعَد الضبط طريقة لزيادة قابلية تعميم النموذج—أي أنه قادر على إنتاج تنبؤات دقيقة في مجموعات بيانات جديدة.1ويوفر الضبط قابلية التعميم المتزايدة هذه لغرض زيادة خطأ التدريب.أو بمعنى آخر، تؤدي طرق الضبط عادةً إلى تنبؤات أقل دقة في بيانات التدريب لكنها تؤدي إلى تنبؤات أكثر دقة في بيانات الاختبار.

يختلف الضبط عن التحسين. إذ يعمل الضبط في الأساس على زيادة قابلية تعميم النموذج بينما التحسين يزيد من دقة تدريب النموذج. وكلا المفهومين، مهمان في التعلم الآلي وعلوم البيانات.

توجد العديد من أشكال الضبط. وأي عنصر مطلوب للحصول على دليل كامل سيتطلب معالجة طويلة قد تعادل طول نصوص كتاب كامل. ومع ذلك، تقدم هذه المقالة نظرة عامة عن النظرية اللازمة لفهم غرض الضبط في التعلم الآلي علاوةً على توفير دراسة استقصائية للعديد من أساليب الضبط الشائعة.

مقايضة التحيز والتباين

هذا التنازل عن زيادة خطأ التدريب لتقليل خطأ الاختبار يُعرف باسم مقايضة التباين والتحيز. وتعد مقايضة التحيز والتباين مشكلة معروفة في التعلم الآلي. ومن الضروري أولاً تعريف "التحيز" و"التباين". لنقولها باختصار:

- التحيز يقيس متوسط الفرق بين القيم المتوقعة والقيم الحقيقية. فمع زيادة التحيز، يتنبأ النموذج بدقة أقل في مجموعة بيانات التدريب. ويشير التحيز العالي إلى الخطأ الكبير في التدريب.

- التباين يقيس الفرق بين التنبؤات في الإحداثات المتنوعة في نموذج واحد معين. ومع زيادة التباين، يتنبأ النموذج بدقة أقل بشأن البيانات غير المرئية. ويُشير التباين العالي إلى خطأ كبير في أثناء الاختبار والتحقق من الصحة.

إذن يمكن القول إن التحيز والتباين وبشكل عكسي يمثلان دقة النموذج في مجموعات التدريب والاختبار على التوالي.2ومن الواضح أن المطورين يهدفون إلى تقليل انحياز النموذج وتباينه. ولا يكون التخفيض المتزامن في كليهما ممكنًا دائمًا، مما يؤدي إلى الحاجة إلى الضبط. إذ يؤدي الضبط إلى تقليل تباين النموذج على حساب زيادة التحيز.

نموذج الانحدار مناسب

من خلال زيادة الانحياز وتقليل التباين، يؤدي الضبط إلى حل مشكلة الإفراط في الملاءمة للنموذج. ويحدث الإفراط في الملاءمة عندما يقل الخطأ في بيانات التدريب بينما يتوقف الخطأ في بيانات الاختبار عن التناقص أو يبدأ في الزيادة.3 بمعنى آخر، الإفراط في الملاءمة يصف النماذج ذات التحيز المنخفض والتباين العالي. ومع ذلك، إذا أدى الضبط إلى الكثير من التحيز، فإن النموذج لن يكون ملائمًا بشكل كافٍ.

ورغم اسمه، فإن نقص الملاءمة لا يعني ما هو عكس الإفراط في الملاءمة. إذ يصف مصطلح "نقص الملاءمة" النماذج التي تتميز بالتحيز العالي والتباين العالي. فالنموذج ناقص الملاءمة ينتج تنبؤات خطأ غير مُرضية في أثناء التدريب والاختبار. وينتج هذا غالبًا عن عدم كفاية البيانات أو المعلمات الخاصة بالتدريب.

ومع ذلك، يمكن أن يؤدي الضبط إلى نقص ملاءمة النموذج أيضًا. إذا حدث الكثير من التحيز خلال عملية الضبط، فيمكن أن يتوقف تباين النموذج عن الانخفاض، بل وقد يتوقف حتى عن الزيادة. قد يكون للضبط هذا التأثير خاصة على النماذج البسيطة، وهي النماذج ذات المعلمات القليلة. وعند تحديد نوع ودرجة الضبط المراد تنفيذه، على الشخص أن يضع في اعتباره مدى تعقيد النموذج، ومجموعة البيانات، ونحو ذلك.4

أنواع الضبط مع النماذج الخطية

الانحدار الخطي والانحدار اللوجستي كلاهما نموذجان تنبئيان يدعمان التعلم الآلي. يهدف الانحدار الخطي (أو المربعات الصغرى العادية) إلى قياس تأثير واحد أو أكثر من المؤشرات على إخراج معين والتنبؤ به من خلال إيجاد أفضل خط مناسب من خلال نقاط البيانات المقدمة (أي بيانات التدريب). ويهدف الانحدار اللوجستي إلى تحديد احتمالات الفئة عن طريق مخرجات ثنائية بالنظر إلى مجموعة من متغيرات التنبؤ. بمعنى آخر، يقدم الانحدار الخطي تنبؤات كمّية مستمرة بينما ينتج الانحدار اللوجستي تنبؤات فئوية منفصلة.5

وبطبيعة الحال، مع زيادة عدد متغيرات التنبؤ في أي من نموذجي الانحدار، فإن العلاقة بين المدخلات والمخرجات ليست دائمًا واضحة وتتطلب معالجة صيغة الانحدار.أدخل الضبط.توجد ثلاثة أشكال رئيسية لضبط نماذج الانحدار.لاحظ أن هذه القائمة ليست سوى مسح قصير.ويختلف تطبيق أساليب الضبط هذه سواءً في الانحدار الخطي أو اللوجستي بشكل دقيق.

- انحدار لاسو(أو ضبط L1) هو أسلوب ضبط يطبق قيمًا جزائية على المعامِلات المرتبطة ذات القيمة العالية.ويقدم حدّ ضبط (يُسمى أيضًا الحد الجزائي) في دالة خسارة مجموع الأخطاء المربعة (SSE) الخاصة بالنموذج.وهذا الحد الجزائي هو القيمة المطلقة لمجموع المعامِلات.ويُتحكم فيه بواسطة المعلمة الفائقة لامدا (λ)، التي تقلل من أوزان السمات المحددة إلى الصفر. ويؤدي انحدار لاسو إلى إزالة السمات متعددة الخطية من النموذج تمامًا.

- انحدار ريدج (أو ضبط L2) هو أسلوب ضبط يطبق قيمًا جزائية بشكل مماثل على المعامِلات ذات القيمة العالية من خلال إدخال حدّ جزائي في دالة خسارة SSE. ومع ذلك، فهو يختلف عن انحدار لاسو. أولاً، الحد الجزائي في انحدار ريدج هو المجموع المربع للمعامِلات وليس القيمة المطلقة للمعامِلات.ثانيًا، لا يؤدي انحدار ريدج إلى تفعيل اختيار السمة. وبينما يستطيع الحد الجزائي لانحدار لاسو إزالة سمات من النموذج عن طريق انكماش قيم المعامل إلى الصفر، فإن انحدار ريدج سيؤدي فقط إلى انكماش أوزان السمات نحو الصفر ولكن ليس إلى الصفر أبدًا.

- الضبط المرن الصافي يجمع في الأصل بين كل من انحدار لاسو وانحدار ريدج لكن مع إدراج الحد الجزائي L1 و L2 في دالة خسارة SSE. إذ يستمد كل من L2 و L1 قيمة الحد الجزائي الخاص بهما، على التوالي، عن طريق تربيع أو أخذ القيمة المطلقة لمجموع أوزان السمة. وتُدرج الشبكة المرنة هاتين القيمتين الجزائيتين في معادلة دالة التكلفة (SSE). وبهذه الطريقة، تعالج الشبكة المرنة التعدد الخطي مع تمكين اختيار السمات أيضًا.6

في الإحصاء، يُطلق على هذه الأساليب أيضًا اسم "معامل الانكماش"؛ لأنها تقلص قيم معامل التنبؤ في النموذج التنبئي. في كل الأساليب الثلاثة، تتحكم لامدا في قوة الحد الجزائي، ويمكن حسابه باستخدام أساليب التحقق المتبادل المتنوعة.

أنواع الضبط في التعلم الآلي

مجموعة البيانات

زيادة البيانات هي أسلوب ضبط يتم فيه تعديل بيانات التدريب النموذجية. إذ يُوسّع حجم مجموعة التدريب بإنشاء عينات بيانات مصطنعة مستمدة من بيانات التدريب الموجودة مسبقًا. وتؤدي إضافة مزيد من العينات إلى مجموعة التدريب، خاصة في الحالات النادرة في بيانات العالم الحقيقي، إلى عرض النموذج لكمية أكبر وتنوع أكبر من البيانات التي يتعلم منها. وحديثًا اكتشفت أبحاث التعلم الآلي تعزيز البيانات للمصنفات، وخاصة بصفتها وسيلة لحل مجموعات البيانات غير المتوازنة.7ومع ذلك، فإن تعزيز البيانات يختلف عن البيانات المصطنعة. فالبيانات المصطنعة تتضمن إنشاء بيانات اصطناعية جديدة بينما تعزيز البيانات ينتج نسخًا معدلة من بيانات موجودة مسبقًا بالفعل بغرض تنويع مجموعة البيانات وتكبيرها.

تدريب النموذج

لعل التوقف المبكر هو أسلوب الضبط الأكثر سهولةً في التنفيذ. هذا لأنه، وباختصار، يحد من عدد التكرارات في أثناء تدريب النموذج. حيث يظل النموذج هنا يمر باستمرار عبر بيانات التدريب، ويتوقف بمجرد عدم وجود تحسن (بل وربما يتدهور أداؤه) في دقة التدريب والتحقق من الصحة. والهدف هو تدريب النموذج حتى يصل إلى أدنى خطأ تدريب ممكن يسبق مستوى استقرار أو زيادة في خطأ التحقق من الصحة.8

توجد العديد من حِزم Python للتعلم الآلي توفر خيارات لأوامر التدريب للتوقف المبكر. وفي الواقع، أحيانًا يكون التوقف المبكر هو الإعداد الافتراضي للتدريب.

الشبكات العصبية

الشبكات العصبية تُعَد نماذج معقدة للتعلم الآلي وهي المحفز لكثير من تطبيقات وخدمات الذكاء الاصطناعي. إذ تتكون الشبكات العصبية من طبقة إدخال، وطبقة واحدة أو أكثر من الطبقات المخفية، وطبقة إخراج، وكل طبقة بدورها تتكون من عدة عُقد.

الإسقاط يضبط الشبكات العصبية بإسقاط العُقد عشوائيًا، إلى جانب اتصالات الإدخال والإخراج، من الشبكة في أثناء التدريب (الشكل 3).ويُدرِّب الإسقاط العديد من الأشكال المختلفة للبنية ذات الحجم الثابت، حيث يحتوي كل شكل على عُقد عشوائية مختلفة مُستبعدة من البنية.وتُستخدم شبكة عصبية واحدة دون إسقاط لغرض الاختبارات، باستخدام طريقة متوسط تقريبية مستمدة من بنى التدريب المعدَّلة عشوائيًا.وبهذه الطريقة، يقترب الإسقاط من تدريب عدد كبير من الشبكات العصبية ذات العديد من البنى المتنوعة.9

تضاؤل الوزن هو شكل آخر من أشكال الضبط المستخدَم للشبكات العصبية العميقة. إذ أنه يقلل من مجموع أوزان الشبكة المربعة عن طريق معلمة الضبط، تمامًا مثل ضبط L2 في النماذج الخطية.10 لكن عند استخدامه في الشبكات العصبية، يكون لهذا التخفيض تأثير مشابه لضبط L1: حيث تنخفض أوزان الخلية العصبية المختارة إلى الصفر.11 ويؤدي هذا إلى إزالة العُقد على نحوٍ فعال من الشبكة، مما يقلل من تعقيد الشبكة من خلال التضاؤل.12

قد يبدو تضاؤل الوزن مشابهًا ظاهريًا للإسقاط في الشبكات العصبية العميقة، لكن الحقيقة أن الأسلوبين مختلفان. أحد الاختلافات الأساسية هو أنه في حالة الإسقاط، تنمو القيمة الجزائية كثيرًا في عمق الشبكة في بعض الحالات، بينما القيمة الجزائية لتضاؤل الوزن تنمو خطيًا. ويعتقد البعض أن هذا يسمح للإسقاط بتطبيق قيمة جزائية على تعقيد الشبكة على نحوٍ أكثر فعالية من تضاؤل الترجيح.13

وتخلط العديد من المقالات والبرامج التعليمية عبر الإنترنت على نحوٍ غير صحيح بين ضبط L2 وتضاؤل الوزن. في الواقع، نرى البحوث الأكاديمية هنا غير متناسقة؛ فبعضها يميز بين L2 وتضاؤل الوزن،14 بينما بعض البحوث يساوي بينهما،15 بينما هناك بحوث تتناقض في وصف العلاقة بينهما.16 يُعَد حل مثل هذه التناقضات في المصطلحات مجالاً مطلوبًا لكن للأسف لم يأخذ هذا الجانب حظه الكافي من البحث والنظر بما يفيد البحوث الأكاديمية المستقبلية.

الحواشي

1 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0

3 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/

4 Vincent Vandenbussche, The Regularization Cookbook, Packt Publishing, 2023.

5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0

6 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen, and Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee, and Hansu Cho"Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html

8 Grégoire Montavon, Geneviève B. Orr, and Klaus-Robert Müller, Neural Networks: Tricks of the Trade, 2nd edition, Springer, 2012.

9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, Vol. 15, No. 56, 2014, pp. 1929−1958, https://jmlr.org/papers/v15/srivastava14a.html

10 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

11 Rahul Parhi and Robert D. Nowak, "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective," IEEE Signal Processing Magazine, Vol. 40, No. 6, 2023, pp. 63-74, https://arxiv.org/abs/2301.09554

12 Stephen Hanson and Lorien Pratt, "Comparing Biases for Minimal Network Construction with Back-Propagation," Advances in Neural Information Processing Systems 1, 1988, pp. 177-185, https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf

13 David P. Helmbold, Philip M. Long, "Surprising properties of dropout in deep networks," Journal of Machine Learning Research, Vol. 18, No. 200, 2018, pp. 1−28, https://jmlr.org/papers/v18/16-549.html

14 Guodong Zhang, Chaoqi Wang, Bowen Xu, and Roger Grosse, "Three Mechanisms of Weight Decay Regularization," International Conference on Learning Representations (ILCR) 2019, https://arxiv.org/abs/1810.12281

15 David P. Helmbold and Philip M. Long, "Fundamental Differences between Dropout and Weight Decay in Deep Networks," 2017, https://arxiv.org/abs/1602.04484v3

16 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/