My IBM Log in اشترك

ما هو نموذج المحول؟

ما هو نموذج المحول؟

نموذج المحول هو نوع من نماذج التعلم العميق تم تقديمه في عام 2017. لقد أصبحت هذه النماذج سريعًا أساسية في معالجة اللغة الطبيعية (NLP)، وتم تطبيقها على مجموعة واسعة من المهام في التعلم الآلي والذكاء الاصطناعي.

تم وصف هذا النموذج لأول مرة في ورقة بحثية صدرت عام 2017 بعنوان Attention is All You Need "الانتباه هو كل ما تحتاجه" من قبل Ashish Vaswani، وفريق من Google Brain ومجموعة من جامعة تورنتو. ويُعد إصدار هذه الورقة البحثية لحظة فارقة في المجال، نظرًا للانتشار واسع النطاق لاستخدام المحولات الآن في تطبيقات مثل تدريب النماذج اللغوية الكبيرة.

يمكن لهذه النماذج ترجمة النصوص والكلام في الوقت الفعلي تقريبًا. على سبيل المثال، توجد الآن تطبيقات تتيح للسائحين التواصل مع السكان المحليين في الشارع بلغتهم الأساسية. وهي تساعد الباحثين على تحقيق فهم أفضل للحمض النووي وتسريع عملية تصميم الأدوية. يمكنها الكشف عن حالات الشذوذ ومنع الاحتيال في مجال الشؤون المالية والأمن. وتستخدم محولات الرؤية بالمثل في مهام رؤية الكمبيوتر.

تستخدم أداة إنشاء النصوص ChatGPT الشهيرة من OpenAI بنى المحول للتنبؤ والتلخيص والإجابة عن الأسئلة وغير ذلك الكثير، لأنها تسمح للنموذج بالتركيز على الأجزاء الأكثر صلة بنص الإدخال. إن الاختصار "GPT" الذي يظهر في الإصدارات المختلفة للأداة (على سبيل المثال. GPT-2، GPT-3) يعني "المحول التوليدي المدرب مسبقًا". تستفيد أدوات الذكاء الاصطناعي التوليدي القائمة على النصوص مثل ChatGPT من نماذج المحولات لأنها يمكن أن تتنبأ بجاهزية أكبر بالكلمة التالية في سلسلة من النصوص، استنادًا إلى مجموعات بيانات كبيرة ومعقدة.

يعتمد نموذج تمثيلات التشفير ثنائية الاتجاه من المحولات، أو ما يعرف اختصارًا باسم BERT، على بنية المحولات. واعتبارًا من عام 2019، تم استخدام BERT في جميع نتائج بحث Google باللغة الإنجليزية تقريبًا، وتم تعميمه على أكثر من 70 لغة أخرى.1

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما الفرق بين نماذج المحولات؟

يتمثل الابتكار الرئيسي لنموذج المحول في عدم الاعتماد على الشبكات العصبية المتكررة (RNN) أو الشبكات العصبية التلافيفية (CNN)، وهي أساليب الشبكة العصبية التي لها عيوب كبيرة. تقوم المحولات بمعالجة تسلسلات المدخلات بالتوازي، مما يجعلها عالية الكفاءة في التدريب والاستدلال - لأنه لا يمكنك تسريع الأمور بإضافة المزيد من وحدات معالجة الرسومات. تحتاج نماذج المحولات إلى وقت تدريب أقل من بنيات الشبكة العصبية المتكررة السابقة مثل الذاكرة طويلة المدى (LSTM).

يعود تاريخ الشبكات العصبية المتكررة (RNN) والذاكرة طويلة المدى (LSTM) إلى عشرينيات وتسعينيات القرن الماضي، على الترتيب. تحسب هذه التقنيات كل عنصر من عناصر الإدخال في التسلسل (على سبيل المثال، كلمة تلو الأخرى) ، لذلك يمكن أن تستغرق العمليات الحسابية وقتًا طويلاً. والأكثر من ذلك، يواجه كلا النهجين قيودًا في الاحتفاظ بالسياق عندما تكون "المسافة" بين أجزاء المعلومات في إدخال طويلة.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

ابتكاران كبيران

هناك ابتكاران أساسيان تجلبهما نماذج المحولات إلى الطاولة. فكر في هذين الابتكارين في سياق النص التنبؤي.

  1. التشفير الموضعي: بدلاً من النظر إلى كل كلمة بالترتيب الذي تظهر به في الجملة، يتم تعيين رقم فريد لكل كلمة. يوفر ذلك معلومات حول موضع كل رمز مميز (أجزاء من الإدخال مثل الكلمات أو أجزاء الكلمات الفرعية في معالجة اللغة الطبيعية) في التسلسل، ما يسمح للنموذج بأخذ معلومات التسلسل المتسلسلة في الاعتبار.

  2. الانتباه الذاتي: الانتباه هو آلية تحسب الأوزان لكل كلمة في الجملة من حيث صلتها بكل كلمة أخرى في الجملة، بحيث يمكن للنموذج التنبؤ بالكلمات التي من المحتمل أن يتم استخدامها بالتسلسل. يتم تعلم هذا الفهم بمرور الوقت حيث يتم تدريب النموذج على الكثير من البيانات. تسمح آلية الانتباه الذاتي لكل كلمة بالاهتمام بكل كلمة أخرى في التسلسل بالتوازي ، مع تقييم أهميتها للرمز المميز الحالي. وبهذه الطريقة ، يمكن القول إن نماذج التعلم الآلي يمكنها "تعلم" قواعد النحو ، بناءً على الاحتمالات الإحصائية لكيفية استخدام الكلمات عادةً في اللغة.

كيف تعمل نماذج المحولات؟

تعمل نماذج المحولات عن طريق معالجة الإدخال، والتي يمكن أن تكون تسلسلًا من الرموز المميزة أو البيانات المنظمة الأخرى، من خلال سلسلة من الطبقات التي تحتوي على آليات الانتباه الذاتي والشبكة العصبية. يمكن تقسيم الفكرة الأساسية وراء كيفية عمل نماذج المحولات إلى عدة خطوات رئيسية.

دعونا نتخيل أنك بحاجة إلى تحويل جملة إنجليزية إلى الفرنسية. هذه هي الخطوات التي ستحتاج إلى اتخاذها لإنجاز هذه المهمة باستخدام نموذج المحول.

  1. التضمينات المُدخلة: يتم تحويل جملة الإدخال أولاً إلى تمثيلات رقمية تسمى التضمينات. وهي تلتقط المعنى الدلالي للرموز في تسلسل الإدخال. بالنسبة إلى تسلسل الكلمات، يمكن تعلم هذه التضمينات في أثناء التدريب أو الحصول عليها من عمليات تضمين الكلمات المدربة مسبقًا.

  2. التشفير الموضعي: عادةً ما يتم تقديم التشفير الموضعي كمجموعة من القيم أو المتجهات الإضافية التي تتم إضافتها إلى تضمينات الرمز المميز قبل إدخالها في نموذج المحول. تحتوي هذه التشفيرات الموضعية على أنماط محددة تشفر معلومات الموضع.

  3. انتباه متعدد الرؤوس: يعمل الانتباه الذاتي في عدة "رؤوس انتباه" لالتقاط أنواع مختلفة من العلاقات بين الرموز المميزة. تُستخدم دوال Softmax، وهي إحدى أنواع دوال التنشيط، لحساب أوزان الانتباه في آلية الانتباه الذاتي.

  4. تطبيع الطبقة والروابط المتبقية: يستخدم النموذج تطبيع الطبقة والروابط المتبقية لتثبيت التدريب وتسريعه.

  5. الشبكات العصبية بالتغذية الأمامية: يتم تمرير مخرجات طبقة الانتباه الذاتي من خلال طبقات التغذية الأمامية. تطبق هذه الشبكات التحول على تمثيلات الرمز المميز، مما يسمح للنموذج بالتقاط الأنماط والعلاقات المعقدة في البيانات.

  6. طبقات مكدسة: تتكون المحولات عادةً من طبقات متعددة مكدسة فوق بعضها البعض. تقوم كل طبقة بمعالجة مخرجات الطبقة السابقة، مما يؤدي إلى تحسين التمثيلات تدريجيًا. يتيح تكديس عدة طبقات للنموذج التقاط الميزات الهرمية والمجردة في البيانات.

  7. طبقة الإخراج: في مهام تحويل التسلسل إلى تسلسل مثل الترجمة الآلية العصبية، يمكن إضافة وحدة منفصلة لفك التشفير أعلى المشفر لتوليد تسلسل الإخراج.

  8. التدريب: يتم تدريب نماذج المحولات باستخدام التعلم الخاضع للإشراف، حيث تتعلم كيفية تقليل دالة الخسارة التي تحدد الفرق بين تنبؤات النموذج والحقيقة الأساسية لمهمة معينة. يتضمن التدريب عادةً تقنيات تحسين مثل Adam أو الانحدار التدرجي العشوائي (SGD).

  9. الاستدلال: بعد التدريب، يمكن استخدام النموذج للاستدلال على البيانات الجديدة. أثناء الاستدلال، يتم تمرير تسلسل الإدخال من خلال النموذج المدرب مسبقًا، ويقوم النموذج بإنشاء تنبؤات أو تمثيلات لمهمة معينة.

حلول ذات صلة

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1  BERT من Google يتم طرحه في جميع أنحاء العالم (الرابط موجود خارج ibm.com)، Search Engine Journal، 9 ديسمبر 2019