ما هي آلية الانتباه؟

المؤلفين

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

ما هي آلية الانتباه؟

آلية الانتباه هي أسلوب تعلم آلي يوجّه نماذج التعلم العميق لإعطاء الأولوية (أو التركيز) على أكثر أجزاء بيانات الإدخال صلة. وقد ساهم الابتكار في آليات الانتباه في تطوير بنية المحولات، مما أدى إلى ظهور النماذج اللغوية الكبيرة (LLM) الحديثة التي تُشغِّل تطبيقات شائعة مثل ChatGPT.

كما يشير اسمها، فإن آليات الانتباه مستوحاة من قدرة البشر (وغيرهم من الكائنات الحية) على التركيز بشكل انتقائي على التفاصيل البارزة وتجاهل التفاصيل الأقل أهمية في اللحظة الحالية. إن امتلاك القدرة على الوصول إلى جميع المعلومات مع التركيز فقط على المعلومات الأكثر صلة يساعد في ضمان عدم فقدان أي تفاصيل مهمة، مع تحقيق استخدام فعال للذاكرة والوقت المحدودَيْن.

من الناحية الرياضية، تحسب آلية الانتباه أوزان الانتباه التي تعكس الأهمية النسبية لكل جزء من تسلسل الإدخال للمهمة المطروحة. ثم تُطبِّق هذه الأوزان لزيادة (أو تقليل) تأثير كل جزء من الإدخال وفقًا لأهميته النسبية. يتم تدريب نموذج الانتباه - أي نموذج الذكاء الاصطناعي الذي يستخدم آلية الانتباه - على تحديد أوزان انتباه دقيقة من خلال التعلم الخاضع للإشراف أو التعلم الخاضع للإشراف الذاتي باستخدام مجموعة بيانات كبيرة من الأمثلة.

تم تقديم آليات الانتباه لأول مرة بواسطة Bahdanau وزملاؤه في عام 2014 كتقنية لمعالجة أوجه القصور في نماذج الشبكات العصبية المتكررة (RNNs)، والتي كانت آنذاك الأكثر تقدمًا في الترجمة الآلية. لاحقًا، تم دمج آليات الانتباه في الشبكات العصبية التلافيفية (CNNs)، مما أتاح استخدامها في مهام مثل توصيف الصور والإجابة عن الأسئلة المرئية.

في عام 2017، قدم البحث الرائد "Attention is All You Need" نموذج المحول، الذي تخلى تمامًا عن التكرار والالتفافات العصبية لصالح طبقات الانتباه فقط إلى جانب الطبقات الأمامية القياسية. أصبحت بنية المحولات منذ ذلك الحين الركيزة الأساسية للنماذج المتقدمة التي تقود عصر الذكاء الاصطناعي التوليدي.

على الرغم من أن آليات الانتباه ترتبط في المقام الأول بالنماذج اللغوية الكبيرة (LLMs) المستخدمة في مهام معالجة اللغة الطبيعية (NLP)، مثل تلخيص النصوص، والإجابة عن الأسئلة، وتوليد النصوص، وتحليل المشاعر، فإن النماذج القائمة على الانتباه تُستخدم أيضًا على نطاق واسع في مجالات أخرى. تُستخدم نماذج الانتشار الرائدة في توليد الصور، وغالبًا ما تتضمن آليات الانتباه. في مجال رؤية الكمبيوتر، حققت محولات الرؤية (ViTs) نتائج فائقة في مهام مثل اكتشاف الأجسام، 1 وتجزئة الصورة2 والإجابة عن الأسئلة المرئية.3

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

ما أهمية آليات الانتباه؟

حققت نماذج المحولات وآليات الانتباه التي تشغلها نتائج متقدمة في مختلف مجالات التعلم العميق تقريبًا. توفر طبيعة آليات الانتباه لهذه المحولات مزايا كبيرة مقارنة بآليات التلافيف المستخدمة في الشبكات العصبية التلافيفية (CNNs) والحلقات التكرارية المستخدمة في الشبكات العصبية المتكررة (RNNs).

  • المرونة بمرور الوقت: تعالج الشبكات العصبية المتكررة (RNNs) البيانات التسلسلية بطريقة متسلسلة، مما يعني أنها تعالج كل خطوة زمنية في التسلسل بشكل فردي وفق ترتيب محدد. وهذا يجعل من الصعب على هذه الشبكات اكتشاف اكتشاف الارتباطات—المعروفة باسم الاعتماديات في علم البيانات—التي تفصل بينها العديد من الخطوات. وعلى النقيض من ذلك، يمكن لآليات الانتباه تحليل التسلسل بالكامل في آنٍ واحد واتخاذ قرارات بشأن ترتيب التركيز على الخطوات المحددة.

  • المرونة على المساحة: تعد الشبكات العصبية التلافيفية (CNNs) محلية بطبيعتها، حيث تستخدم الالتفافات لمعالجة أجزاء أصغر من بيانات الإدخال واحدة تلو الأخرى. وهذا يجعل من الصعب على الشبكات العصبية التلافيفية تمييز الاعتماديات المتباعدة، مثل الارتباطات بين الكلمات (في النص) أو وحدات البكسل (في الصور) التي لا تكون متجاورة. أما آليات الانتباه، فلا تعاني من هذا القيد، إذ تعالج البيانات بطريقة مختلفة تمامًا.

  • التوازي: تستلزم طبيعة آليات الانتباه تنفيذ العديد من الخطوات الحسابية في وقت واحد، بدلًا من تنفيذها بطريقة متسلسلة. وهذا بدوره يتيح درجة عالية من الحوسبة المتوازية، مع الاستفادة من القوة والسرعة التي توفرها وحدات معالجة الرسوميات.

لفهم كيفية عمل آليات الانتباه في التعلم العميق ولماذا كانت المحفّز وراء ثورة الذكاء الاصطناعي التوليدي، من المفيد أولًا فهم سبب تقديم الانتباه في الأصل: وهو تحسين نماذج (Seq2Seq) القائمة على الشبكات العصبية المتكررة المستخدمة في الترجمة الآلية.
 

طريقة عمل نموذج Seq2Seq بدون آليات انتباه

تُعد الشبكات العصبية المتكررة (RNNs) نوعًا من الشبكات العصبية التي تحتوي على حلقات تكرارية تعمل بمثابة ذاكرة، مما يتيح لها معالجة البيانات المتسلسلة. تستقبل الشبكات العصبية المتكررة تسلسلًا مرتبًا من متجهات الإدخال وتعالجها على خطوات زمنية. بعد كل خطوة زمنية، يتم إعادة الحالة الناتجة للشبكة—والمعروفة باسم الحالة المخفية إلى الحلقة، إلى جانب متجه الإدخال التالي.

تعاني الشبكات العصبية المتكررة (RNNs) بسرعة من اضمحلال التدرج أو انفجار التدرج أثناء التدريب، مما جعلها غير عملية للعديد من مهام معالجة اللغة الطبيعية (NLP)، حيث يحد ذلك بشكل كبير من طول جمل الإدخال التي يمكن معالجتها.4 تم التخفيف من هذه القيود جزئيًا عبر تحسين بنية الشبكات العصبية المتكررة من خلال شبكات الذاكرة طويلة وقصيرة المدى (LSTMs)، والتي تضيف آليات التوجيه للحفاظ على "الذاكرة طويلة المدى".

قبل ظهور آلية الانتباه، كان نموذج Seq2Seq هو النموذج الأكثر تقدمًا في الترجمة الآلية. يعتمد نموذج Seq2Seq على استخدام شبكتين من شبكات LSTMs في بنية وحدة التشفير-فك التشفير.

  • يعمل أول نموذج ذاكرة طويلة وقصيرة المدى (LSTM)، وهو برنامج التشفير، على معالجة الجملة المصدر خطوة بخطوة، ثم يُخرج حالة الإخفاء للخطوة الزمنية الأخيرة. يقوم هذا المخرج، وهو متجه السياق، بتشفير الجملة بأكملها كتضمين متجه واحد. لتمكين نموذج التسلسل إلى تسلسل (Seq2Seq) من التعامل بمرونة مع الجمل ذات الأعداد المتفاوتة من الكلمات، يكون متجه السياق دائمًا بنفس الطول.

  • يأخذ LSTM الثاني، وحدة فك التشفير، إخراج تضمين المتجه بواسطة المشفر كمدخل أولي ويفك تشفيره ، كلمة بكلمة، في لغة ثانية.

يتيح ترميز تسلسلات الإدخال في عدد ثابت من الأبعاد لنموذج Seq2Seq معالجة تسلسلات ذات أطوال مختلفة، ولكنه أدى أيضًا إلى ظهور عيوب جوهرية:

  • إنه يمثل تسلسلات طويلة أو معقدة بنفس مستوى التفاصيل مثل الجمل الأقصر والأبسط. يتسبب هذا في اختناق المعلومات في التسلسلات الأطول ويهدر الموارد في التسلسلات الأقصر.

  • يمثل هذا المتجه فقط الحالة المخفية النهائية لشبكة التشفير. من الناحية النظرية، يجب أن تحتوي كل حالة مخفية لاحقة على معلومات مقدمة من الحالة المخفية السابقة، والتي بدورها تحتوي على معلومات من الخطوة الزمنية التي سبقتها، وهكذا، وصولًا إلى الخطوة الأولى. لكن من الناحية العملية، "يفقد" المتجه السياقي حتما جزءًا من المعلومات من الخطوات الزمنية المبكرة، مما يضعف أداء النموذج في التسلسلات الأطول.
     

كيف حسّنت آليات الانتباه نماذج Seq2Seq

اقترح Bahdanau وزملاؤه. آلية الانتباه في بحثهم المنشور عام 2014 بعنوان Neural Machine Translation by Jointly Learning to Align and Translate بهدف تحسين الاتصال بين المشفِّر (Encoder) ووحدة فك التشفير (Decoder) والتخلص من اختناق المعلومات.

بدلا من تمرير الحالة المخفية النهائية فقط من وحدة التشفير - والمعروفة باسم متجه السياق - إلى وحدة فك التشفير، مرر نموذجهم كل الحالات المخفية إلى وحدة فك التشفير. تم استخدام آلية الانتباه لتحديد أي حالة مخفية—أيْ أيّ كلمة في الجملة الأصلية—كانت الأكثر صلة في كل خطوة ترجمة تنفذها وحدة فك التشفير.

ووفقًا لما ذكره البحث "يُحرر هذا النهج النموذج من الحاجة إلى ترميز الجملة المصدرية بالكامل في متجه ثابت الطول، كما يسمح له بالتركيز فقط على المعلومات ذات الصلة بتوليد الكلمة المستهدفة التالية. يؤثر هذا بشكل إيجابي كبير على قدرة نظام الترجمة الآلية العصبية على تحقيق نتائج جيدة عند التعامل مع الجمل الأطول."5

ركزت أبحاث معالجة اللغة الطبيعية (NLP) اللاحقة بشكل أساسي على تحسين الأداء وتوسيع حالات الاستخدام لآليات الانتباه في النماذج المتكررة. أدى ابتكار نماذج المحولات عام 2017، التي تعتمد بالكامل على آلية الانتباه، إلى جعل الشبكات العصبية المتكررة (RNNs) شبه متقادمة في مجال معالجة اللغة الطبيعية.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

كيف تعمل آليات الانتباه؟

يتمثل الأساسي لآلية الانتباه في تحديد الأهمية النسبية لمختلف أجزاء تسلسل الإدخال، ثم توجيه النموذج إلى التركيز على الأجزاء المهمة وتجاهل الأجزاء غير المهمة.

على الرغم من وجود أنواع وفئات آليات انتباه عديدة، كل منها يناسب حالات استخدام وأولويات مختلفة، إلا أن جميع آليات الانتباه تتضمن ثلاث عمليات أساسية:

  1.  عملية "قراءة" تسلسلات البيانات غير المُنسَّقة وتحويلها إلى تمثيلات متجهية ، حيث يتم تمثيل كل عنصر في التسلسل بواسطة متجه (متجهات) ميزات خاص به.

  2. عملية تحديد أوجه التشابه والارتباطات والاعتماديات الأخرى (أو انعدامها) بين كل متجه بدقة، يتم قياسها من خلال درجات المحاذاة (أو درجات الانتباه)، التي تعكس مدى محاذاتها (أو عدم محاذاتها). ثم يتم استخدام درجات المحاذاة لحساب أوزان الانتباه باستخدام دالة softmax، والتي تعمل على تطبيع جميع القيم إلى نطاق يتراوح بين 0 و1 بحيث مجموعها الإجمالي 1. على سبيل المثال، يعني تعيين وزن الانتباه بقيمة 0 لعنصر ما أنه يجب تجاهله، في حين يعني وزن الانتباه بقيمة 1 أن هذا العنصر يجب أن يحظى بانتباه بنسبة 100٪ لأن جميع العناصر الأخرى سيكون لها أوزان انتباه تساوي 0 (نظرًا لأن مجموع الأوزان يجب أن يكون 1). بعبارة أخرى، يمثل ناتج دالة softmax توزيع الاحتمالات.

  3. عملية استخدام أوزان الانتباه لتضخيم أو تقليل تأثير عناصر الإدخال المحددة على كيفية قيام النموذج بإجراء التنبؤات. بعبارة أخرى، تُستخدم أوزان الانتباه لمساعدة النماذج على التركيز على المعلومات المهمة أو تجاهل المعلومات غير الضرورية.

الاستعلامات والمفاتيح والقيم

قدم البحث الرائد "Attention is All You Need" آلية الانتباه باستخدام مصطلحات قواعد البيانات العلائقية، مثل الاستعلامات، والمفاتيح، والقيم. تم تصميم قواعد البيانات العلائقية لتسهيل تخزين البيانات واسترجاعها، حيث يتم تعيين معرّف فريد ("مفتاح") لكل جزء من البيانات، ويرتبط كل مفتاح بقيمة مقابلة. في مجال معالجة اللغة الطبيعية (NLP)، تمثل "قاعدة البيانات" الخاصة بالنموذج المفردات التي تعلمها من مجموعة البيانات التدريبية.

كان للبحث الرائد "Attention is All You Need" تأثير كبير، حتى أن الآليات السابقة للانتباه غالبًا ما يتم وصفها بأثر رجعي باستخدام هذه المصطلحات. بشكل عام، تتضمن هذه الرؤية لآليات الانتباه التفاعل بين ثلاثة أنواع من تمثيلات المتجهات لكل رمز مميز في التسلسل.

  • يمثل متجه الاستعلام المعلومات التي يبحث عنها رمز مميز معين.

  • تمثل متجهات المفتاح المعلومات التي يحتوي عليها كل رمز مميز. يتم استخدام المحاذاة بين الاستعلام والمفتاح لحساب أوزان الانتباه.

  • تطبق القيمة (أو متجه القيمة) المعلومات المرجحة بالانتباه من المتجهات الرئيسية. يتم ترجيح المساهمات من المفاتيح التي تتماشى بقوة مع الاستعلام بشكل أكبر. سيتم ترجيح المساهمات من المفاتيح غير ذات الصلة بطلب البحث بالقرب من الصفر.

تُميَّز أنواع آليات الانتباه المختلفة بشكل أساسي وفقًا لطريقة ترميز المتجهات، وكيفية حساب درجات المحاذاة، وآلية تطبيق أوزان الانتباه لتزويد النموذج بالمعلومات ذات الصلة.
 

الانتباه الإضافي

تم تصميم آلية الانتباه التي ابتكرها Bahdanau خصيصًا للترجمة الآلية. وهي تستخدم شبكة عصبية متكررة ثنائية الاتجاه لتشفير كل رمز مميز في الإدخال. تعمل هذه البنية على معالجة تسلسل الإدخال في الاتجاه الأمامي والعكسي، ثم دمج النتائج معًا. يعد هذا النهج مفيدًا بشكل خاص عند التعامل مع اللغات التي تختلف فيها ترتيب الكلمات، مثل الأسماء والصفات، بين النص الأصلي والترجمة.

في هذه الآلية، تمثل الحالة المخفية لوحدة فك التشفير عند كل خطوة زمنية في الجملة المُترجمة متجه الاستعلام، بينما تمثل الحالة المخفية للمشفّر عند كل خطوة في الجملة المصدر متجه المفتاح.

يتم تحديد درجات المحاذاة بعد ذلك بواسطة شبكة عصبية أمامية بسيطة، وهي طبقة الانتباه، والتي يتم تدريبها بشكل مشترك مع بقية النموذج. تتكون طبقة الانتباه من ما يصل إلى ثلاثة مجموعات فرعية من أوزان النموذج القابلة للتعلم: أوزان الاستعلام لحالات فك التشفير المخفية ("Wq")، وأوزان المفاتيح لحالات التشفير المخفية ("Wk")، وأوزان القيم لتحجيم المخرجات النهائية ("wv"). تمثل هذه الأوزان "معرفة النموذج": فمن خلال ضبط القيم المحددة لتلك الأوزان أثناء التدريب لتقليل دالة الفقد، يتعلم النموذج إجراء ترجمات دقيقة.

في كل خطوة، يعمل الانتباه الإضافي بالطريقة التالية:

  • يُضاف متجه الاستعلام (مضروبًا في Wq) إلى متجه المفتاح (مضروبًا في Wk). إذا تمت محاذاتهما، فإن إضافتهما معًا ستؤدي إلى قيمة كبيرة. أما إذا كانا غير ذوي صلة ببعضهما البعض، فإن إضافتهما معًا ستعطي قيمة صغيرة أو قيمة سالبة.

  • يتم إدخال الرقم الناتج إلى tanh دالة التنشيط، والتي تقوم بتعيين جميع الإدخالات إلى رقم بين -1 و1 1.

  • الناتج من tanh الدالة يتم بعد ذلك ضربه بأوزان القيمة wv. وهذا يعطي درجة المحاذاة بين متجه الاستعلام ومتجه المفتاح هذا.
  • يتم بعد ذلك إدخال درجة المحاذاة في دالة softmax، والتي تُنتج وزن انتباه لمتجه المفتاح هذا.

يتم حساب متجه السياق الذي تستخدمه وحدة فك التشفير لتوليد الجملة المترجمة على أنه المجموع المُرجح بالانتباه لكل متجه مفتاح. تتمثل إحدى ميزات الانتباه الإضافي في أنه لا يشترط أن يكون لمتجهات الاستعلام ومتجهات المفاتيح الطول نفسه.

الانتباه بالضرب النقطي

في عام 2015، قدم Luong وزملاؤه عدة منهجيات جديدة لتبسيط وتحسين آلية الانتباه التي طورها Bahdanau في الترجمة الآلية. ربما كان أبرز إسهاماتهم هو تقديم دالة جديدة لحساب درجات المحاذاة تعتمد على الضرب بدلًا من الجمع. كما أنها تخلت عن استخدام دالة التنشيط tanh ، حيث تم حساب التشابه بين متجهات الحالات المخفية باستخدام الضرب النقطي. لهذا السبب، يُطلق على هذه الآلية غالبًا اسم الانتباه بالضرب النقطي أو الانتباه الضربي (Multiplicative Attention).

الفكرة وراء استخدام حاصل الضرب النقطي لمقارنة متجهات الاستعلام تستند إلى أسس رياضية وعملية على حد سواء:

  • إذا تمت محاذاة المتجهين Q و K أي إذا كان الاستعلام والمفتاح متشابهين في المعنى بعضهما لبعض، فإن ضربهما سيؤدي إلى قيمة كبيرة. بعد دالة softmax، ينتج عن هذه القيمة الكبيرة وزن انتباه كبير لهذا المفتاح. إذا لم يكونا متحاذيين بشكل جيد، فسيكون حاصل ضربهما النقطي صغيرًا أو سالبًا، وستؤدي دالة softmax اللاحقة إلى وزن انتباه صغير.

  • في التطبيق العملي، يُعد الضرب أسرع بكثير وأكثر كفاءة حسابيًا للشبكات العصبية مقارنةً بعمليات الجمع، حيث يمكن تنفيذه في خطوات أقل باستخدام الضرب المصفوفي.6

تتمثل إحدى نتائج استخدام الانتباه بالضرب النقطي في أن حسابات الضرب النقطي تتطلب أن يكون لكل من المتجهين العدد نفسه من الأبعاد، dk .

بينما يستمر الانتباه الإضافي (Additive Attention) في حساب المتجه السياقي على أنه المجموع المُرجَّح لمتجهات المفتاح، يقوم الانتباه بالضرب النقطي بحساب المتجه السياقي على أنه المتوسط المُرجَّح لمتجهات المفتاح.
 

الانتباه بالضرب النقطي المتدرج

أشار مؤلفا بحث "Attention is All You Need" إلى أنه على الرغم من أن الانتباه بالضرب النقطي أسرع وأكثر كفاءة من الناحية الحسابية من الانتباه الإضافي، إلا أن الانتباه الإضافي يتفوق على الانتباه بالضرب النقطي التقليدي مع المتجهات الأطول.

لقد افترضوا أنه عندما تكون dk كبيرة جداً، فإن قيم الضرب النقطي الناتجة تكون كبيرة أيضًا. وعند قيام دالة Softmax بضغط هذه القيم الكبيرة لتتناسب بين 0 و1، يؤدي الانتشار العكسي إلى تدرجات صغيرة جدًا يصعب تحسينها. كشفت التجارب أن قياس حاصل الضرب النقطي لمتجهين بطول dk ضرب  1dk قبل تطبيع softmax ينتج عنه تدرجات أكبر مما يسهل تحسين النموذج وجعل التدريب أكثر استقرارًا وسلاسة.

تُكتَب دالة الانتباه بالضرب النقطي المقيَّس في نماذج المحولات بالصورة التالية Attention(Q,K,V)=softmax(QKTdk)V .

 

الانتباه الذاتي

كانت أقدم أنواع آليات الانتباه تؤدي جميعها ما يُعرف الآن باسم الانتباه المتقاطع. في الانتباه المتقاطع، تأتي الاستعلامات والمفاتيح من مصادر بيانات مختلفة. على سبيل المثال، في مهام الترجمة الآلية، تأتي المفاتيح من مجموعة نصية بلغة معينة، في حين تأتي الاستعلامات من لغة أخرى. أما في مهام التعرف على الكلام، فإن الاستعلامات تكون بيانات صوتية، في حين أن المفاتيح تكون بيانات نصية تستخدم لتفريغ الصوت إلى نص مكتوب.

في آلية الانتباه الذاتي، يتم استخلاص الاستعلامات والمفاتيح والقيم من نفس المصدر. وبينما نجد أن آليتي الانتباه الخاصتين بكل من Bahdanau وLuong قد صُممتا للترجمة الآلية بشكل صريح، فقد قام Cheng وآخرون باقتراح آلية انتباه ذاتي (أطلقوا عليها اسم "الانتباه الداخلي") كطريقة لتحسين قراءة الآلة بشكل عام. لكن آلية الانتباه هذه، والموضحة في ورقة بحثية لعام 2016، لم تستكشف كيف تساهم عناصر الإدخال في التسلسل العام، بل استكشفت كيفية ارتباط الرموز المميزة المختلفة للإدخال بعضها ببعض.

تعالوا ننظر في نموذج لغوي يفسر النص الإنجليزي
"on Friday, the judge issued a sentence."

  • الكلمة السابقةthe تشير إلى أن كلمةjudge تُستخدم هنا كاسم،أي الشخص الذي يترأس محاكمة قانونية، وليس كفعل يعني "يقيّم" أو "يصدر حكمًا".

  • هذا السياق لكلمةjudge تشير إلى أن كلمةsentence على الأرجح تشير إلى عقوبة قانونية وليس إلى "جملة" نحوية.

  • الكلمةissued توحي أيضًا أن الجملة تشير إلى المفهوم القانوني، وليس المفهوم النحوي.

  • لذلك، عند ترجمة الكلمةsentence ينبغي أن يركز النموذج علىjudge وissued . مع إيلاء بعض الانتباه أيضًا لكلمةthe . يمكن أن يتجاهل الكلمات الأخرى بشكل أو بآخر. ستقوم آلية الانتباه الذاتي المدربة جيدًا بحساب أوزان الانتباه وفقًا لذلك.

ركز بحث Cheng وزملاؤه بشكل حصري على قدرة الانتباه الذاتي على قراءة وفهم النصوص، لكن سرعان ما تبين أن نمذجة العلاقات داخل التسلسل يمكن أن تكون أداة قوية أيضًا في كتابة النصوص. وقد أدى التطوير المستمر لللانتباه الذاتي، إلى جانب نماذج المحولات التي مكّنها، إلى ظهور الذكاء الاصطناعي التوليدي الحديث ونماذج الانحدار الذاتي التي تستطيع توليد نصوص أصلية.
 

الانتباه الذاتي والترجمة الآلية

تستطيع نماذج الانحدار الذاتي أداء ترجمة النصوص آليًا باستخدام الانتباه الذاتي، لكنها تتبع نهجًا مختلفًا في ذلك. فبينما يتعامل الانتباه المتقاطع مع الجملة المصدر والجملة المُترجمة كسلسلتين منفصلتين، يعامل الانتباه الذاتي النص الأصلي والنص المُترجم على أنهما تسلسل واحد.

لكي يتمكن نموذج لغوي كبير (LLM) قائم على الانحدار الذاتي والانتباه الذاتي من ترجمة النصوص، فإنه يتعلم جميع الكلمات التي يصادفها أثناء التدريب—عبر جميع اللغات—كجزء من مفردات رموز مميزة متعددة اللغات. يدرك النموذج ببساطة أنه عندما يحتوي التسلسل على تعليمات مثل "ترجم [الكلمات المكتوبة بلغة 1] إلى لغة 2"، فإن الكلمات التالية في التسلسل يجب أن تكون رموزًا مميزة من اللغة 2

في جوهره، لا يدرك النموذج اللغوي الكبير القائم على الانحدار الذاتي تلقائيًا أنه توجد لغات مختلفة. وبدلًا من ذلك، يفهم فقط كيف أن مجموعات معينة من الرموز المميزة—والتي تمثل هنا كلمات من نفس اللغة—تُولي الانتباه لبعضها البعض. يتم تعزيز هذا الفهم السياقي بشكل أكبر من خلال تقنيات مثل ضبط النموذج وفقًا للتعليمات.

الانتباه في نماذج المحولات

قدم البحث الرائد "Attention is All You Need"، الذي ألفه Vaswani وزملاؤه، مفهوم الانتباه الذاتي كأساس لتقديم بنية شبكة عصبية جديدة: المحول. اعتمد نموذج المحول بالكامل على آليات الانتباه، متخليًا عن التلافيف العصبية (CNNs) والتكرار المستخدم في الشبكات العصبية المتكررة (RNNs)، واستبدلهما بطبقات الانتباه فقط وطبقات أمامية خطية قياسية.

اعتمد النموذج الذي قدمه مؤلفو البحث "Attention is All You Need" على بنية التشفير-فك التشفير، على غرار النماذج السابقة القائمة على الشبكات العصبية المتكررة. لاحقًا، تخلت النماذج القائمة على المحول عن إطار التشفير-فك التشفير. كان أحد أول النماذج البارزة التي تم إصدارها بعد ورقة المحولات هو نموذج BERT (اختصارًا لـ Bidirectional Encoder Representations from Transformers)، والذي يعتمد فقط على المشفر. أما النماذج اللغوية الكبيرة القائمة على الانحدار الذاتي، والتي أحدثت ثورة في توليد النصوص، مثل نماذج GPT (Generative Pretrained Transformer)، فهي تعتمد فقط على فك التشفير.

قدم بحث "Attention Is All You Need" عدة ابتكارات في آلية الانتباه، كان من أبرزها الانتباه بالضرب النقطي المقيَّس، وذلك بهدف تحسين الأداء وتكييف آلية الانتباه مع بنية نموذج جديدة بالكامل.
 

الترميز الموضعي

يمكن أن يكون لترتيب الكلمات ومواضعها تأثير مهم على معانيها. فبينما تحافظ الشبكات العصبية المتكررة (RNNs) بطبيعتها على المعلومات حول موضع كل رمز مميز من خلال حساب الحالات المخفية بشكل متسلسل، أي كلمة تلو الأخرى، يجب على نماذج المحولات ترميز المعلومات الموضعية بشكل صريح.

باستخدام الترميز الموضعي، يضيف النموذج متجهًا من القيم لكل رمز مميز مستمدًا من موضعه النسبي، وذلك قبل أن يدخل الإدخال إلى آلية الانتباه. عادةً ما يكون لهذا المتجه الموضعي أبعاد أقل بكثير من تمثيل الرمز المميز نفسه، مما يعني أن جزءًا صغيرًا فقط من تمثيل الرمز المميز يتلقى معلومات موضعية. الرياضيات وراء هذه العملية قد تكون معقدة، ولكن المنطق الأساسي بسيط:

  • كلما اقترب الرمزان المميزان بعضهما من بعض، زاد تشابه المتجهات الموضعية.

  • وكلما زاد تشابه هذه المتجهات الموضعية، زاد التشابه بين متجهات الرمز المميز الخاصة بهما بعد إضافة تلك المتجهات الموضعية.

  • كلما كانت التضمينات المحدثة موضعياً أكثر تشابهاً، كلما كانت درجة محاذاة الرمز المميز أكبر، مما يؤدي إلى زيادة وزن الانتباه بين هذين الرمزين. وبالتالي ، يتعلم النموذج دفع المزيد من الاهتمام الذاتي للرمز المميز القريب.

صمّم Vaswani وزملاؤه خوارزمية بسيطة تستخدم دالة الجيب للرموز الموجودة في المواضع الزوجية، ودالة جيب التمام للرموز في المواضع الفردية. لاحقًا، حسّنت خوارزميات مثل الترميز الموضعي الدوَّار القدرة على ترميز المعلومات الموضعية بفعالية في التسلسلات الطويلة جدًا، مما ساعد بدوره في تمكين النماذج اللغوية الكبيرة (LLMs) ذات نوافذ السياق الأكبر.
 

آلية الانتباه الذاتي في نماذج المُحوِّلات

بمجرد تحديث تمثيلات الرموز المميزة بمعلومات الترميز الموضعي، يتم استخدام كل منها لإنشاء ثلاثة متجهات جديدة من خلال تمرير تمثيل الرمز المميز الأصلي عبر ثلاث طبقات عصبية خطية متوازية تسبق أول طبقة انتباه. تمتلك كل طبقة متوازية مصفوفة أوزان فريدة، يتم تعلم قيمها المحددة من خلال التدريب المسبق الخاضع للإشراف الذاتي باستخدام مجموعة بيانات ضخمة من النصوص.

  • يتم ضرب التضمين في مصفوفة الوزن WQ لإنتاج متجه الاستعلام (Q)، الذي يحتوي على dk أبعاد

  • يتم ضرب التضمين في مصفوفة الوزن WK لإنتاج المتجه الرئيسي (K)، أيضًا بأبعاد dk 

  • يتم ضرب التضمين في مصفوفة الوزن WV لإنتاج متجه القيمة ( V )، مع الأبعاد  dv
رسم تخطيطي يوضح آلية الانتباه في نموذج المحولات رسم تخطيطي مبسط لآلية الانتباه في نموذج المحوِّل: يتم ضرب التمثيلات المتجهية الأصلية للرموز في جملة الإدخال في مصفوفات الأوزان WW، وKK، وVV لإنتاج المتجهات المقابلة WW، وKK، وVV لكل رمز.

تتمثل الوظيفة الأساسية لآلية الانتباه في تحديد الأهمية النسبية لكل زوج من الاستعلام والمفتاح بين كل رمز مميز. بالنسبة لكل رمز x في تسلسل الإدخال، يقوم نموذج المحول بحساب أوزان الانتباه (ثم تطبيقها) على النحو التالي:

  1. يُضرب متجه الاستعلام الخاص بالرمز المميّز x Qx في متجه المفتاح لكل رمز مميز K. يكون ناتج حاصل الضرب النقطي كبيرًا إذا كان الرمز المميز الآخر ذا صلة عالية، بينما يكون الناتج صغيرًا أو سالبًا إذا كان الرمز المميز الآخر غير ذي صلة.

  2. سيتم قياس كل حاصل ضرب نقطي - أي سيتم ضربه - بالقيمة 1dk. فيكون الناتج هو درجة المحاذاة بين الرمز المميز x وكل رمز مميز آخر.
  3. يتم إدخال درجات المحاذاة هذه إلى دالة Softmax، والتي تقوم بتطبيع كل درجة إلى قيمة تتراوح بين 0-1، بحيث يكون مجموعها جميعًا 1. هذه هي أوزان الانتباه بين الرمز المميز x وكل رمز مميز آخر. يمكنك اعتبار أن كل رمز مميز أصبح الآن يحتوي على متجه مناظر من أوزان الانتباه، حيث يمثل كل عنصر من هذا المتجه مدى تأثير بعض الرموز المميزة الأخرى عليه.

  4. يتم الآن ضرب متجه القيمة لكل رمز مميز آخر في وزن الانتباه الخاص به.

  5. يتم حساب متوسط متجهات القيمة المُرجحة بالانتباه هذه جميعها معًا. يمثل المتجه الناتج متوسط جميع المساهمات المرجحة بالانتباه من كل متجه مفتاح.

  6. أخيرًا، يتم إضافة متجه التغييرات الناتج لكل رمز مميز إلى تمثيل المتجه الأصلي للرمز x. وبذلك، يتم تحديث تمثيل متجه الرمز x ليعكس بشكل أفضل السياق الذي توفره الرموز الأخرى في التسلسل.

الانتباه متعدد الرؤوس

يُعد أخذ متوسط المساهمات المُرجّحة بالانتباه من الرموز المميزة الأخرى بدلاً من معالجة كل مساهمة على حدة نهجًا فعالًا من الناحية الرياضية، لكنه يؤدي إلى فقدان بعض التفاصيل. ولمعالجة هذا القصور، تعتمد بنية المحوِّل على الانتباه متعدد الرؤوس.

للاستفادة من كفاءة التوزيع المتوسط مع الاستمرار في معالجة العلاقات المعقدة بين الرموز المميزة، تقوم نماذج المحولات بتنفيذ عمليات الانتباه الذاتي عدة مرات بالتوازي في كل طبقة انتباه داخل الشبكة. يتم تقسيم تمثيل كل رمز مميز أصلي إلى h مجموعات متساوية الحجم. يتم تمرير كل جزء من التمثيل إلى واحدة من h مصفوفات موازية لأوزان الاستعلام (Q)، والمفتاح (K)، والقيمة (V)، والتي تُعرف باسم رأس الاستعلام، ورأس المفتاح، ورأس القيمة على التوالي. يتم بعد ذلك تمرير المتجهات الناتجة من هذه الثلاثيات المتوازية إلى رأس الانتباه المقابل.

رسم تخطيطي يوضح الانتباه متعدد الرؤوس المخطط المبسط للانتباه متعدد الرؤوس الذي اشتهر في بحث "Attention Is All You Need"

في الطبقات النهائية لكل كتلة انتباه، يتم في النهاية دمج مخرجات هذه المسارات المتوازية h معًا. عمليًا، يؤدي تدريب النموذج إلى تعلم كل مسار أوزانًا مختلفة تلتقط جوانب منفصلة من المعاني الدلالية. يسمح ذلك للنموذج بمعالجة الطرق المختلفة التي يمكن أن يؤثر بها سياق الكلمات الأخرى على معنى الكلمة. على سبيل المثال، قد يتخصص أحد رؤوس الانتباه في تحليل تغييرات الأزمنة النحوية، بينما قد يركز رأس آخر على تأثير الكلمات المجاورة على النغمة العامة للنص.

تمثيل لعملية التسلسل في الانتباه متعدد الرؤوس يتم ربط مخرجات "Z" لكل رأس انتباه معًا. في هذا المثال، h=8.

في هذه المرحلة، يتم توضيح الدائرة الكاملة لعملية ضرب المصفوفات في كتلة الانتباه للمحول القياسي. تجدر الإشارة إلى أن التطورات اللاحقة لآلية الانتباه في المحول، مثل الانتباه متعدد الاستعلامات والانتباه بالاستعلامات المجمّعة، تبسّط أو تدمج بعض عناصر العملية لتقليل المتطلبات الحسابية.

رسم تخطيطي يوضح كتلة الانتباه متعدد الرؤوس مخطط مبسط يوضح جميع عمليات ضرب المصفوفات في كتلة الانتباه متعدد الرؤوس (h=8) مقتبسة من منشور بعنوان "The Illustrated Transformer." للكاتب Jay Alammar. لاحظ أن علامة "+" تشير إلى الدمج، وليس الجمع.

توليد المخرجات

في الطبقات الأخيرة من نماذج المحولات، يتم تدريب رؤوس الانتباه غالبًا لإجراء تنبؤات متخصصة. على سبيل المثال، قد يتخصص أحد رؤوس الانتباه في الطبقة الأخيرة من النموذج اللغوي الكبير في التعرف على الكيانات المسماة، بينما قد يركز رأس آخر على تحليل المشاعر، وهكذا.

في نماذج الانحدار الذاتي اللغوية الكبيرة (autoregressive LLMs)، تكون الطبقة قبل الأخيرة طبقة خطية تستقبل المتجه المُحوَّل بالكامل وتُسقطه إلى حجم يتطابق مع تمثيلات المتجهات (vector embeddings) التي تعلمها النموذج لكل رمز مميز في مفرداته. يتيح ذلك حساب الدرجات التي تمثل مدى تطابق المتجه الناتج مع كل رمز في المفردات. أما الطبقة الأخيرة، فهي طبقة دالة Softmax، والتي تعمل على تحويل تلك الدرجات إلى احتمالات (بمجموع كلي يساوي 1)، ثم تستخدم تلك الاحتمالات لتحديد الكلمة التالية الأكثر احتمالًا بناءً على الكلمات التي سبقتها.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1. “Leaderboard: Object Detection on COCO test-dev,” Papers With Code, accessed 18 November 2024
2. “Leaderboards: Image Segmentation” Papers With Code, accessed 18 November 2024
3. “Leaderboard: Visual Question Answering (VQA) on VQA v2 test-dev,” Papers With Code, accessed 18 November 2024
4. “Learning long-term dependencies with gradient descent is difficult,” IEE Transactions on Neural Networks 5(2): 157-66, February 1994
5. “Neural Machine Translation by Jointly Learning to Align and Translate,” arXiv, 1 September 2014
6. “Multiplicative Attention,” Papers With Code