الصفحة الرئيسية
فكر
برنامج التشفير التلقائي المتغير
تاريخ النشر: 12 يونيو 2024
المساهمون: ديف بيرجمان، وكول سترايكر
برامج التشفير التلقائي المتغير (VAE) هي نماذج توليدية مستخدمة في التعلم الآلي (ML) لإنشاء بيانات جديدة في شكل تعديلات على بيانات الإدخال التي تم تدريبهم عليها. بالإضافة إلى ذلك، يقومون أيضا بأداء مهام شائعة في برامج التشفير التلقائي الأخرى، مثل تقليل الضوضاء.
كما عليه الحال في جميع برامج التشفير التلقائي، فإن برامج التشفير التلقائي المتغيرة هي نماذج تعلم عميقة تتكون من مشفر يتعلم عزل المتغيرات الكامنة المهمة عن بيانات التدريب ووحدة فك التشفير التي تستخدم بعد ذلك تلك المتغيرات الكامنة لإعادة بناء بيانات الإدخال.
ومع ذلك، في حين أن معظم بنيات التشفير التلقائي هي تشفير تمثيل منفصل وثابت للمتغيرات الكامنة، فإن برامج التشفير التلقائي المتغيرة (VAE) هي تشفير تمثيل احتمالي مستمر لهذا الفضاء الكامن. ولا يتيح ذلك لبرنامج التشفير التلقائي المتغير (VAE) إعادة بناء الإدخال الأصلي بدقة فحسب، وإنما أيضًا استخدام الاستدلال المتغير لإنشاء عينات بيانات جديدة تشبه بيانات الإدخال الأصلية.
تم اقتراح بنية الشبكة العصبية لبرنامج التشفير التلقائي المتغير في الأصل في ورقة بحثية أعدها ديديريك ب. كينجما وماكس ويلينج عام 2013 بعنوان التشفير التلقائي بايز المتغير (Auto-Encoding Variational Bayes)(يؤدي الرابط إلى صفحة خارج موقع ibm.com). كما عممت هذه الورقة البحثية أيضًا ما أطلقوا عليه حيلة إعادة تحديد المعالم، وهي تقنية مهمة للتعلم الآلي تتيح استخدام العشوائية كمدخل للنموذج دون المساس بإمكانية التفريق—بين النموذج، أي القدرة على تحسين معلمات النموذج.
في حين تتم مناقشة برامج التشفير التلقائي المتغيرة (VAE) بشكل متكرر في سياق إنشاء الصور، بما في ذلك في هذه المقالة، إلا إنه يمكن استخدامها في مجموعة متنوعة من تطبيقات الذكاء الاصطناعي (AI)، من اكتشاف وجود خلل1 إلى توليد جزيئات دوائية جديدة2 (يؤدي الرابط إلى صفحة خارج موقع ibm.com).
في حين أن معظم المنظمات واضحة بشأن النتائج التي تتوقعها من الذكاء الاصطناعي التوليدي، فإن اختيار النموذج الخاطئ يمكن أن يؤثر بشدة على عملك. ويمكنك في هذا الكتاب الإلكتروني، استكشاف إطار اختيار النموذج لتحقيق التوازن بين متطلبات الأداء والتكلفة والمخاطر واحتياجات النشر ومتطلبات الأطراف المعنية.
من الضروري لفهم برامج التشفير التلقائي المتغيرة (VAE) أو أي نوع آخر من برامج التشفير التلقائي معرفة مفهوم الفضاء الكامن، وهو الاسم الذي يطلق على المتغيرات الكامنة الجماعية لمجموعة محددة من بيانات الإدخال. وباختصار، فإن المتغيرات الكامنة هي المتغيرات الأساسية للبيانات التي تحدد طريقة توزيع البيانات ولكن لا يمكن ملاحظتها بشكل مباشر في كثير من الأحيان.
للحصول على تصور مفيد لمفهوم المتغيرات الكامنة، تخيل جسرًا بجهاز استشعار يقيس وزن كل مركبة عابرة. وبطبيعة الحال، هناك أنواع مختلفة من المركبات التي تستخدم الجسر، من السيارات المكشوفة الصغيرة وخفيفة الوزن إلى الشاحنات الضخمة والثقيلة. نظرًا لعدم وجود كاميرا، ليس لدينا طريقة لاكتشاف ما إذا كانت مركبة معينة قابلة للتحويل أو سيارة سيدان أو شاحنة صغيرة أو شاحنة. ومع ذلك، فإننا نعلم أن نوع السيارة يؤثر بشكل كبير على وزن تلك السيارة.
وبالتالي، يستلزم هذا المثال متغيرين عشوائيين، x وz، حيث x هو المتغير الذي يمكن ملاحظته مباشرة لوزن السيارة وz هو المتغير الكامن لنوع السيارة. والهدف الأساسي من التدريب الأساسي لأي مُشَفِّر تلقائي هو أن يتعلم كيفية نمذجة الفضاء الكامن لمدخل معين بكفاءة.
تقليل الفضاء الكامن والأبعاد
تقوم أجهزة التشفير التلقائي بنمذجة الفضاء الكامن من خلال تقليل الأبعاد: ضغط البيانات في مساحة ذات أبعاد أقل تلتقط المعلومات المفيدة الموجودة في الإدخال الأصلي.
في سياق التعلم الآلي (ML)، لا تتوافق الأبعاد الرياضية مع الأبعاد المكانية المألوفة للعالم المادي، ولكن مع ميزات البيانات. على سبيل فالمثال، يمكن تمثيل صورة بالأبيض والأسود بحجم 28 × 28 بكسل لرقم مكتوب بخط اليد من مجموعة بيانات MNIST كمتجه مكون من 784 بُعدًا، حيث يتوافق كل بُعد مع بكسل فردي تتراوح قيمته من 0 (للأسود) إلى 1 (للأبيض). يمكن تمثيل الصورة نفسها بالألوان على هيئة متجه ذي 2352 بُعدًا، حيث يتم تمثيل كل بكسل من وحدات البكسل البالغ عددها 784 بكسل في ثلاثة أبعاد تتوافق مع قيمها الحمراء والخضراء والزرقاء (RGB).
ومع ذلك، لا تحتوي جميع هذه الأبعاد على معلومات مفيدة. يمثل الرقم الفعلي نفسه جزءًا صغيرًا فقط من الصورة، لذا فإن معظم مساحة الإدخال عبارة عن ضوضاء في الخلفية. ويمكن أن يؤدي ضغط البيانات إلى الأبعاد التي تحتوي على المعلومات ذات الصلة فقط—أي الفضاء الكامن—إلى تحسين دقة وكفاءة وفعالية العديد من مهام وخوارزميات التعلم الآلي.
تُعد VAEs مجموعة فرعية من فئة أكبر من المشفرات التلقائية، وهي بنية شبكة عصبية تُستخدم عادةً في التعلم العميق لمهام مثل ضغط البيانات وتقليل تشويش الصور واكتشاف التشوهات والتعرف على الأوجه.
المشفرات التلقائية هي أنظمة ذاتية الإشراف هدفها التدريبي هو ضغط (أو تشفير) بيانات المدخلات من خلال تقليل الأبعاد ثم إعادة بناء (أو فك تشفير) مدخلاتها الأصلية بدقة باستخدام هذا التمثيل المضغوط.
على المستوى الأساسي، تتمثل وظيفة المشفرات التلقائية في استخراج المعلومات الأبرز للبيانات بشكل فعال - متغيراتها الكامنة - وتجاهل التشويش غير ذي الصلة. ما يميز الأنواع المختلفة من المشفرات التلقائية عن بعضها هو الإستراتيجية المحددة التي يستخدموها لاستخراج تلك المعلومات وحالات الاستخدام التي تناسبها إستراتيجيتهم بشكل أفضل.
في التدريب، تقوم شبكة التشفير بتمرير بيانات الإدخال من مجموعة بيانات التدريب من خلال "عنق الزجاجة" قبل أن تصل إلى وحدة فك التشفير. وشبكة فك التشفير، هي مسؤولة بدورها عن إعادة بناء الإدخال الأصلي باستخدام متجه المتغيرات الكامنة فقط.
بعد كل فترة تدريب، يتم استخدام خوارزميات التحسين مثل الانحدار التدرجي لضبط أوزان النموذج بطريقة تقلل من الفرق بين إدخال البيانات الأصلية ومخرجات فك التشفير. وفي النهاية، يتعلم برنامج التشفير السماح من خلال المعلومات الأكثر ملاءمة لإعادة البناء الدقيقة ويتعلم برنامج فك التشفير إعادة بنائها بشكل فعال.
في حين أن هذا يفسح المجال بشكل حدسي لمهام ضغط البيانات المباشرة، فإن القدرة على تشفير التمثيلات الكامنة الدقيقة للبيانات غير المسماة بكفاءة تمنح برامج التشفير التلقائي مجموعة متنوعة من التطبيقات. على سبيل المثال، يمكن استخدام برامج التشفير التلقائي لاستعادة الملفات الصوتية التالفة أو تلوين الصور ذات التدرج الرمادي أو اكتشاف حالات الخلل (مثل تلك الناتجة عن الاحتيال) التي قد تكون غير مرئية بالعين المجردة.
على الرغم من أن الأنواع المختلفة من برامج التشفير التلقائي تضيف أو تغير جوانب معينة من بنيتها لتناسب أهدافًا وأنواع بيانات محددة بشكل أفضل، إلا أن جميع برامج التشفير التلقائي تشترك في ثلاثة عناصر هيكلية رئيسية:
يستخرج برنامج التشفير المتغيرات الكامنة لبيانات الإدخال x ويخرجها في شكل متجه يمثل الفضاء الكامن z. وفي برنامج التشفير التلقائي النموذجي من النوع "فانيلا"، تحتوي كل طبقة لاحقة من المشفر على عُقد أقل تدريجيًا من الطبقة السابقة، فعندما تجتاز البيانات كل طبقة من طبقات برنامج التشفير، يتم ضغطها عبر عملية "ضغط" لها ضمن أبعاد أقل.
وبدلاً من ذلك، تستخدم متغيرات التشفير التلقائي الأخرى مصطلحات التنظيم، مثل الدالة التي تفرض التباعد عن طريق معاقبة عدد العقد التي يتم تنشيطها في كل طبقة، لتحقيق هذا الحد من الأبعاد.
عنق الزجاجة، أو "الرمز"، هو طبقة الإخراج لشبكة التشفير وطبقة الإدخال لشبكة فك التشفير. يحتوي على الفضاء الكامن: التضمين المضغوط بالكامل ومنخفض الأبعاد لبيانات الإدخال. ومن الضروري وجود عنق زجاجة كافٍ للمساعدة في ضمان عدم تمكن برنامج فك التشفير ببساطة من نسخ أو حفظ بيانات الإدخال، والتي من شأنها أن تفي اسميًا بمهمة التدريب الخاصة بها ولكنها تمنع برنامج التشفير التلقائي من التعلم.
يستخدم برنامج فك التشفير هذا التمثيل الكامن لإعادة بناء الإدخال الأصلي عن طريق عكس برنامج التشفير بشكل أساسي: في بنية برنامج فك التشفير النموذجي، وتحتوي كل طبقة لاحقة على عدد أكبر تدريجيًا من العقد النشطة.
في حين أن شبكات التشفير وفك التشفير للعديد من برامج التشفير التلقائي مبنية من مستقبلات قياسية متعددة الطبقات (MLPs)، فإن برامج التشفير التلقائي لا تقتصر على أي نوع معين من الشبكات العصبية.
غالبًا ما تكون برامج التشفير التلقائي المستخدمة في مهام رؤية الكمبيوتر عبارة عن شبكات عصبية تلافيفية (CNNs) وبالتالي تسمى برامج التشفير التلقائي التلافيفية. واستُخدمت برامج التشفير التلقائي التي تم إنشاؤها من بنية المحول في مجالات متعددة، بما في ذلك رؤية الكمبيوتر3 والموسيقى.4
تتمثل إحدى الميزات الرئيسية لبرامج التشفير التلقائي على خوارزميات تقليل الأبعاد الأخرى، مثل تحليل المكونات الرئيسية (PCA)، في أن برامج التشفير التلقائي يمكنها نمذجة العلاقات غير الخطية بين المتغيرات المختلفة. ولهذا السبب، تستخدم عُقد الشبكات العصبية للتشفير التلقائي عادةً وظائف التنشيط غير الخطية.
في كثيرٍ من تطبيقات برنامج التشفير التلقائي، لا يعمل برنامج فك التشفير إلا للمساعدة في تحسين برنامج التشفير، وبالتالي يتم التخلص منه بعد التدريب. وفي برامج التشفير التلقائي المتغيرة، يتم الاحتفاظ ببرنامج فك تشفير واستخدامه لإنشاء نقاط بيانات جديدة.
ما يميز برامج التشفير التلقائي المتغيرة (VAE) عن برامج التشفير التلقائي الأخرى هو الطريقة الفريدة التي تشفر بها الفضاء الكامن وحالات الاستخدام المختلفة التي يمكن تطبيق تشفيرها الاحتمالي.
على عكس معظم برامج التشفير التلقائي، وهي نماذج حتمية تشفر متجه واحد من المتغيرات الكامنة المنفصلة، فإن برامج التشفير التلقائي المتغيرة (VAE) هي نماذج احتمالية. وتشفر برامج التشفير التلقائي المتغيرة (VAE) المتغيرات الكامنة لبيانات التدريب ليس كقيمة منفصلة ثابتة z، ولكن كنطاق مستمر من الاحتمالات المُعبر عنها كتوزيع احتمالي p(z).
في إحصاءات بايزي، يسمى هذا النطاق المكتسب من الاحتمالات للمتغير الكامن التوزيع السابق. وفي الاستدلال المتغير، وهي العملية التوليدية لتوليف نقاط بيانات جديدة، يتم استخدام هذا التوزيع المسبق لحساب التوزيع الخلفي، p(z|x). وبمعنى آخر، قيمة المتغيرات التي يمكن ملاحظتها هي x، مع إعطاء قيمة للمتغير الكامن z.
لكل سمة كامنة لبيانات التدريب ، تقوم برامج التشفير التلقائي المتغيرة (VAE) بتشفير متجهين كامنين مختلفين: متجه للوسائل، "μ"، ومتجه للانحرافات المعيارية، "σ". وفي الأساس، يمثل هذان المتجهان نطاق الاحتمالات لكل متغير كامن والتباين المتوقع داخل كل نطاق من الاحتمالات.
من خلال أخذ العينات بشكل عشوائي من داخل هذا النطاق من الاحتمالات المشفرة، يمكن لبرامج التشفير التلقائي المتغيرة (VAE) تجميع عينات بيانات جديدة تشبه بيانات التدريب الأصلية، مع كونها فريدة وأصلية في حد ذاتها. وعلى الرغم من أن هذه المنهجية بديهية نسبيًا من حيث المبدأ، إلا أنها تتطلب مزيدًا من التعديلات على منهجية التشفير التلقائي القياسية ليتم وضعها موضع التنفيذ.
لشرح هذه القدرة التي تميز برامج التشفير التلقائي المتغيرة (VAE)، سنستعرض المفاهيم التالية:
كما هو حال جميع برامج التشفير التلقائي، تستخدم برامج التشفير التلقائي المتغيرة (VAE) خسائر إعادة البناء، والذي يُطلق عليه أيضًا خطأ إعادة البناء، كدالة خسارة أساسية في التدريب. ويقيس خطأ إعادة البناء الفرق (أو "الخسارة") بين بيانات الإدخال الأصلية والنسخة المعاد إنشاؤها من إخراج البيانات تلك بواسطة برنامج فك التشفير. ويمكن استخدام خوارزميات متعددة، بما في ذلك خسارة الإنتروبيا المتقاطعة أو متوسط الخطأ التربيعي (MSE)، كدالة لخسارة إعادة البناء.
كما أوضحنا سابقا، تنشئ بنية التشفير التلقائي عنق زجاجة يسمح فقط لمجموعة فرعية من بيانات الإدخال الأصلية بالمرور إلى وحدة فك التشفير. وفي بداية التدريب، الذي يبدأ عادة بتهيئة عشوائية لمعلمات النموذج، لم يتعلم برنامج التشفير بعد أجزاء البيانات التي يجب تقييمها بشكل أكبر. ونتيجة لذلك، سينتج في البداية تمثيلاً كامنا دون المستوى الأمثل، وستنتج برامج فك التشفير إعادة بناء غير دقيقة أو غير كاملة إلى حد ما للإدخال الأصلي.
بفضل تقليل خطأ إعادة البناء من خلال شكل من أشكال النزول المتدرج على معلمات شبكة التشفير وشبكة فك التشفير، سيتم تعديل أوزان نموذج التشفير التلقائي بطريقة تنتج تشفيرًا أكثر فائدة للفضاء الكامن (وبالتالي إعادة بناء أكثر دقة). ومن الناحية الرياضية، فإن هدف دالة خسارة إعادة البناء هو تحسين pθ(z|x)، حيث يُمثل θ معلمات النموذج التي تفرض إعادة البناء الدقيقة للمدخلات x بالنظر إلى المتغير الكامن z.
تعد خسارة إعادة البناء وحدها كافية لتحسين معظم برامج التشفير التلقائي، والتي يتمثل هدفها الوحيد في تعلم التمثيل المضغوط لبيانات الإدخال التي تساعد في إعادة البناء بدقة.
ومع ذلك، فإن الهدف من التشفير التلقائي المتغير ليس إعادة بناء الإدخال الأصلي. وإنما إنشاء عينات جديدة تشبه المدخلات الأصلية. ولهذا السبب، فهناك حاجة إلى مصطلح تحسين إضافي.
لأغراض الاستدلال المتغير—إنشاء عينات جديدة بواسطة نموذج مدرب—يمكن أن تؤدي خسارة إعادة البناء وحدها إلى تشفير غير منتظم للفضاء الكامن التي تبالغ في ملاءمة بيانات التدريب ولا يمكن تعميمها بشكل جيد على العينات الجديدة. ولذلك، فإن التباعد بين برامج التشفير التلقائي المتغيرة (VAE) يتضمن مصطلح تنظيم آخر: تباعد كولباك-ليبلر، أو تباعد KL.
لإنشاء صور، يأخذ برنامج فك التشفير عينات من الفضاء الكامن. أخذ العينات من النقاط المحددة في الفضاء الكامن الذي يمثل المدخلات الأصلية في بيانات التدريب من شأنه أن يكرر تلك المدخلات الأصلية. ولإنشاء صور جديدة، يجب أن يكون برنامج التشفير التلقائي المتغير (VAE) قادرًا على أخذ عينات من أي مكان في الفضاء الكامن بين نقاط البيانات الأصلية. ولكي يكون ذلك ممكنًا، يجب أن يُظهر الفضاء الكامن نوعين من الانتظام:
واحدة من الطرق البسيطة لتنفيذ كل من الاستمرارية والاكتمال في الفضاء الكامن هي المساعدة في ضمان اتباع توزيع طبيعي قياسي، يسمى التوزيع الغاوسي. لكن تقليل خسارة إعادة البناء فقط لا يحفز النموذج على تنظيم الفضاء الكامن بأي طريقة معينة، لأن الفضاء "البيني" ليست ذا صلة بإعادة البناء الدقيقة لنقاط البيانات الأصلية. وهذا هو المكان الذي يبدأ فيه دور مصطلح تنظيم تباعد KL.
تباعد KL هو مقياس يُستخدم للمقارنة بين توزيعين احتماليين. إن تقليل تباعد KL بين التوزيع المكتسب للمتغيرات الكامنة والتوزيع الغاوسي البسيط الذي تتراوح قيمه من 0 إلى 1 يجبر التشفير المكتسب للمتغيرات الكامنة على اتباع التوزيع الطبيعي. وهذا يسمح بالاستيفاء السلس لأي نقطة في الفضاء الكامن، وبالتالي إنتاج صور جديدة.
تتمثل إحدى العقبات التي تحول دون استخدام تباعد KL للاستدلال التغييري في أن مقام المعادلة غير قابل للعزل، ما يعني أنه سيستغرق وقتًا لا نهائيًا نظريًا لحسابها مباشرةً. وللتغلب على هذه المشكلة، ودمج كل من دالتي الخسارة الرئيسية، تقارب برامج التشفير التلقائي المتغيرة (VAEs) تقليل تباعد KL عن طريق تعظيم الحد الأدنى للأدلة (ELBO).
في المصطلحات الإحصائية، يشير "الدليل" في "الحد الأدنى للدليل" إلى p(x)، بيانات الإدخال التي يمكن ملاحظتها والتي يكون برنامج التشفير التلقائي المتغير (VAE) مسؤولاً ظاهريًا عن إعادة بنائها. وتلك المتغيرات التي يمكن ملاحظتها في بيانات الإدخال هي "الدليل" على المتغيرات الكامنة التي اكتشفها برنامج التشفير التلقائي. ويشير "الحد الأدنى" إلى أسوأ تقدير للوغاريتم الاحتمال اللوغاريتمي لتوزيع معين. وقد تكون احتمالية تسجيل الدخول الفعلية أعلى من الحد الأدنى للأدلة (ELBO).
في سياق برامج التشفير التلقائي المتغيرة (VAEs)، يشير الحد الأدنى للأدلة إلى تقدير أسوأ الحالات لاحتمال أن يكون التوزيع الخلفي المحدد—بمعنى آخر، ناتج محدد من برنامج التشفير التلقائي، مشروطًا بكل من مصطلح خسارة تباعد KL ومصطلح خسارة إعادة البناء—يناسب "دليل" بيانات التدريب. ومن ثم، يُمكن الإشارة إلى تدريب نموذج للاستدلال المتغير من حيث تعظيم الحد الأدنى للأدلة (ELBO).
كما تم التطرق إليه، فإن الهدف من الاستدلال التغييري هو إخراج بيانات جديدة على شكل تغيرات عشوائية لبيانات التدريب x. وللوهلة الأولى، يبدوا الأمر بسيطًا نسبيًا: استخدم دالة ƒ التي تحدد قيمة عشوائية للمتغير الكامن z، والتي يمكن لبرنامج فك التشفير استخدامها بعد ذلك لإنشاء إعادة بناء تقريبية لـ x.
ومع ذلك، فإن الخاصية المتأصلة في العشوائية هي أنه لا يمكن تحسينها. لا يوجد "أفضل" عشوائي. متجه القيم العشوائية، بحكم تعريفه، ليس له مشتق—أي لا يوجد تدرج يعبر عن أي نمط في مخرجات النموذج الناتج—وبالتالي لا يمكن تحسينه من خلال الانتشار العكسي باستخدام أي شكل من أشكال النزول المتدرج. وهذا يعني أن الشبكة العصبية التي تستخدم عملية أخذ العينات العشوائية السابقة لا يمكنها تعلم المعلمات المثلى للقيام بمهمتها.
للتحايل على هذه العقبة، تستخدم برامج التشفير التلقائي المتغيرة (VAE) خدعة إعادة تحديد المعلمات، حيث تقدم خدعة إعادة تحديد المعلمات معلمة جديدة، ε، وهي قيمة عشوائية مختارة من التوزيع الطبيعي بين 0 و1.
ثم تعيد تعيين معلمات المتغير الكامن z على النحو التالي z = μx + εσx. وبعبارات أبسط، فإنها تختار قيمة للمتغير الكامن z عن طريق البدء بمتوسط هذا المتغير (يمثله μ) وتحويله بمضاعف عشوائي (يمثله ε) للانحراف المعياري (σ). وبناءً على تلك القيمة المحددة لـ z، يقوم برنامج فك التشفير بإخراج عينة جديدة.
نظرًا لأن القيمة العشوائية ε غير مشتقة من معلمات نموذج برنامج التشفير التلقائي وليس لها علاقة بها، فإنه يمكن تجاهلها أثناء الانتشار العكسي. ويتم تحديث النموذج من خلال بعض أشكال النزول المتدرج—في أغلب الأحيان باستخدام Adam (يؤدي الرابط إلى صفحة خارج موقع ibm.com)، وهي خوارزمية تحسين تعتمد على التدرج تم تطويرها أيضًا بواسطة كينجما—لتعظيم الحد الأدنى للأدلة (ELBO).
يتمثل أحد أوجه القصور في برامج التشفير التلقائي المتغيرة من النوع "فانيلا" في أن المستخدم لا يتحكم في النواتج المحددة التي تم إنشاؤها بواسطة برنامج التشفير التلقائي. فعلى سبيل المثال، سينشئ برنامج التشفير التلقائي المتغير (VAE) التقليدي- المدرَّب على مجموعة بيانات MNIST المذكورة سابقًا- عينات جديدة من الأرقام المكتوبة بخط اليد من 0 إلى 9، ولكن لا يمكن تقييده لتقديم مخرجات بعينها مثل 4 و7 فقط.
وكما يوحي اسمها، تتيح برامج التشفير التلقائي المتغيرة المشروطة (CVAE) مخرجات مشروطة بمدخلات محددة، بدلاً من توليد اختلافات في بيانات التدريب عشوائيًا فقط. ويتم تحقيق ذلك من خلال دمج عناصر التعلم الخاضع للإشراف (أو التعلم شبه الخاضع للإشراف) جنبًا إلى جنب مع أهداف التدريب غير الخاضعة للإشراف بشكل تقليدي لبرامج التشفير التلقائي التقليدية.
بفضل التدريب الإضافي للنموذج على أمثلة مصنفة لمتغيرات محددة، يمكن استخدام هذه المتغيرات لتكييف مخرجات برنامج فك التشفير. على سبيل المثال، يمكن تدريب برنامج التشفير التلقائي المتغير المشروطة (CVAE) أولاً على مجموعة بيانات كبيرة من صور الوجه، ثم تدريبه باستخدام التعلم الخاضع للإشراف لتعلم تشفير كامن لـ "اللحى" حتى يتمكن من إخراج صور جديدة للوجوه الملتحية.
غالبًا ما تتم مقارنة برامج التشفير التلقائي المتغيرة (VAE) بالشبكة التنافسية التوليدية (GAN)، وهي بنية نموذجية أخرى تستخدم لتوليد عينات تشبه بيانات التدريب، خاصة بالنسبة للصور.
كما هو الحال في برامج التشفير التلقائي المتغيرة (VAE)، تعد الشبكات التنافسية التوليدية (GAN) بنية مشتركة تجمع بين شبكتين عصبيتين: شبكة مولد مسؤولة عن إخراج عينات الصور التي تشبه الصور من مجموعة بيانات التدريب وشبكة تمييز مسؤولة عن تحديد ما إذا كانت صورة معينة هي صورة "حقيقية" من بيانات التدريب أو صورة "مزيفة" من شبكة المولد.
يتم تدريب الشبكتين بشكل تنافسي في لعبة محصلتها صفر: يتم استخدام التغذية المرتدة من المميز لتحسين إخراج المولد حتى يصبح المميز غير قادر على التمييز بين العينات الحقيقية والمزيفة.
بالنسبة لتركيب الصور، لكل منهما إيجابيات وسلبيات: تنتج الشبكات التنافسية التوليدية (GAN) صورًا أكثر وضوحًا، ولكن بسبب المفاضلات التنافسية بين النموذجين المركبين تكون غير مستقرة في التدريب. ومن الأسهل التدريب على برامج برامج التشفير التلقائي المتغيرة (VAE)، ولكن نظرًا لطبيعة إنتاج الصور من الميزات "المتوسطة" لبيانات التدريب، فإنها تميل إلى إنتاج صور أكثر ضبابية.
VAE-GANs
برنامج التشفير التلقائي المتغير (VAE)-الشبكة التنافسية التوليدية (GAN)، كما يوحي اسمها، هي هجين بين برنامج التشفير التلقائي المتغير (VAE) والشبكة التنافسية التوليدية (GAN). وهي تقلل من ضبابية الصور التي تم إنشاؤها بواسطة برنامج التشفير التلقائي المتغير (VAE) عن طريق استبدال مصطلح خسارة إعادة بناء نموذج برنامج التشفير التلقائي المتغير (VAE) بشبكة تمييز.
تعرف على المزيد حول العديد من أنواع برامج التشفير التلقائي وكيف أن قدرتها على تشفير البيانات بكفاءة تمنحها مجموعة واسعة من حالات الاستخدام.
اكتشف المزيد عن التقنيات الأخرى لتقليل الأبعاد، والتي تحافظ على الميزات الأساسية لمجموعات البيانات المعقدة مع تقليل عدد متغيرات التنبؤ.
اقرأ المزيد حول النماذج التي يمكنها إنشاء محتوى أصلي—مثل النص أو الصور أو الفيديو أو الصوت أو رمز البرنامج—استجابةً لمطالبة المستخدم أو بناءً على طلبه.
تؤدي كل الروابط إلى صفحات خارج ibm.com
1 "تطبيقات جديدة لأنظمة اكتشاف حالات الخلل المستندة إلى برنامج التشفير التلقائي المتغير (VAE)"، arXiv، 26 أبريل 2022.
2 "الفضاء الكيميائي الكامن القائم على برنامج التشفير التلقائي المتغير للتركيبات الجزيئية الكبيرة ذات التعقيد ثلاثي الأبعاد"، نيتشر، 16 نوفمبر2023.
3 "برامج التشفير التلقائية المقنعة هي متعلمات رؤية قابلة للتطوير"، arXiv، 11 نوفمبر 2021.
4 "تشفير النمط الموسيقي باستخدام برامج التشفير التلقائي للمحول"، arXiv، 10 ديسمبر 2019.