تم تصميم آلية الانتباه التي ابتكرها Bahdanau خصيصًا للترجمة الآلية. وهي تستخدم شبكة عصبية متكررة ثنائية الاتجاه لتشفير كل رمز مميز في الإدخال. تعمل هذه البنية على معالجة تسلسل الإدخال في الاتجاه الأمامي والعكسي، ثم دمج النتائج معًا. يعد هذا النهج مفيدًا بشكل خاص عند التعامل مع اللغات التي تختلف فيها ترتيب الكلمات، مثل الأسماء والصفات، بين النص الأصلي والترجمة.
في هذه الآلية، تمثل الحالة المخفية لوحدة فك التشفير عند كل خطوة زمنية في الجملة المُترجمة متجه الاستعلام، بينما تمثل الحالة المخفية للمشفّر عند كل خطوة في الجملة المصدر متجه المفتاح.
يتم تحديد درجات المحاذاة بعد ذلك بواسطة شبكة عصبية أمامية بسيطة، وهي طبقة الانتباه، والتي يتم تدريبها بشكل مشترك مع بقية النموذج. تتكون طبقة الانتباه من ما يصل إلى ثلاثة مجموعات فرعية من أوزان النموذج القابلة للتعلم: أوزان الاستعلام لحالات فك التشفير المخفية ("Wq")، وأوزان المفاتيح لحالات التشفير المخفية ("Wk")، وأوزان القيم لتحجيم المخرجات النهائية ("wv"). تمثل هذه الأوزان "معرفة النموذج": فمن خلال ضبط القيم المحددة لتلك الأوزان أثناء التدريب لتقليل دالة الفقد، يتعلم النموذج إجراء ترجمات دقيقة.
في كل خطوة، يعمل الانتباه الإضافي بالطريقة التالية:
- يُضاف متجه الاستعلام (مضروبًا في Wq) إلى متجه المفتاح (مضروبًا في Wk). إذا تمت محاذاتهما، فإن إضافتهما معًا ستؤدي إلى قيمة كبيرة. أما إذا كانا غير ذوي صلة ببعضهما البعض، فإن إضافتهما معًا ستعطي قيمة صغيرة أو قيمة سالبة.
- يتم إدخال الرقم الناتج إلى دالة التنشيط، والتي تقوم بتعيين جميع الإدخالات إلى رقم بين -1 و1 1.
- الناتج من الدالة يتم بعد ذلك ضربه بأوزان القيمة wv. وهذا يعطي درجة المحاذاة بين متجه الاستعلام ومتجه المفتاح هذا.
- يتم بعد ذلك إدخال درجة المحاذاة في دالة softmax، والتي تُنتج وزن انتباه لمتجه المفتاح هذا.
يتم حساب متجه السياق الذي تستخدمه وحدة فك التشفير لتوليد الجملة المترجمة على أنه المجموع المُرجح بالانتباه لكل متجه مفتاح. تتمثل إحدى ميزات الانتباه الإضافي في أنه لا يشترط أن يكون لمتجهات الاستعلام ومتجهات المفاتيح الطول نفسه.