My IBM

ما تخصيص دركليه الكامن (LDA)؟

22 أبريل 2024

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

تخصيص دركليه الكامن (LDA) هو تقنية لنمذجة المواضيع تستخدم للكشف عن المواضيع المركزية وتوزيعاتها عبر مجموعة من الوثائق.

يُعد تخصيص دركليه الكامن (LDA) — والذي لا ينبغي الخلط بينه وبين تحليل التمايز الخطي في التعلم الآلي— نهجًا بايزيًا لنمذجة الموضوعات. وباختصار، فإن تخصيص دركليه الكامن (LDA) يُعد شكلاً احتماليًا شرطيًا لنمذجة الموضوعات.

نمذجة الموضوعات هي إحدى تقنيات معالجة اللغة الطبيعية (NLP) التي تطبق عملية التعلم غير الموجّه على مجموعات كبيرة من البيانات النصية من أجل إنتاج مجموعة موجزة من المصطلحات المقتبسة من تلك المستندات. تهدف هذه المصطلحات إلى تمثيل مجموعة الموضوعات الأساسية المضمنة في المجموعة. وبهذه الطريقة، يكون الهدف من نماذج الموضوعات متمثلاً في الكشف عن الموضوعات أو الأفكار الكامنة التي تميز مجموعة من المستندات.¹

يمكن للمستخدمين إنشاء نماذج موضوعات LDA بسهولة باستخدام مجموعة أدوات اللغة الطبيعية (NLTK) من scikit-learn (أو sklearn) ومكتبة gensim التي تعمل بلغة Python. تحتوي نماذج الموضوعات وحزم lda في R أيضًا على دوال لإنشاء نماذج موضوعات LDA.

افتراض إنشاء النص

تخصيص دركليه الكامن (LDA) هو نموذج احتمالي. وهذا يعني أن خوارزمية تخصيص دركليه الكامن (LDA) تنشئ مواضيع، وتصنف الكلمات والوثائق ضمن هذه المواضيع المختلفة حسب التوزيعات الاحتمالية. ولكن لماذا تعد هذه طريقة مناسبة للكشف عن الهياكل الموضوعية المخفية في البيانات النصية؟ بشكل أساسي، يفترض تخصيص دركليه الكامن (LDA) أن الوثائق قد أُنشِأت من خلال أخذ عينات عشوائية من مواضيع ما قبل المستند، وتحاول إجراء هندسة عكسية لهذه العينات.

تبدأ عملية النص المتخيل لتخصيص دركليه الكامن (LDA) بمواضيع ما قبل المستند. ويتكون كل موضوع من مفردات ثابتة من الكلمات، حيث تخضع كل كلمة لاحتمالية انتمائها إلى هذا الموضوع. لاحظ أن الكلمات تُعيَّن لها احتمالات بدلاً من فئة منفصلة لمراعاة التعددية المحتملة للمدلول والاستخدام. بعد ذلك، لكي تنشئ الآلة مستندًا نصيًا، تقوم بإنشاء توزيع على المواضيع بشكل عشوائي—على سبيل المثال، خمسة وثمانون بالمائة لمواضيع السياسية وعشرة بالمائة لمواضيع التمويل وخمسة بالمائة لمواضيع التاريخ. ولكل كلمة في هذا المستند، تختار الآلة بشكل عشوائي أحد المواضيع المختارة ويصدر كلمة بشكل عشوائي من هذا الموضوع. لاحظ أن تخصيص دركليه الكامن (LDA) نفسه لا يُنشئ الوثائق بهذه الطريقة. بل هذه هي العملية التي يفترض تخصيص دركليه الكامن (LDA) أن الوثائق قد أُنشأت من خلالها. يحاول تخصيص دركليه الكامن (LDA) نفسه أن يعكس هذه العملية للكشف عن المواضيع الشاملة والمخفية التي تنتشر في مجموعة من الوثائق.

يوضح هذا الشكل عملية إنشاء النص المفترضة الكامنة وراء تخصيص دركليه الكامن (LDA):

في أسفل هذه الصورة توجد مجموعة عشوائية من الموضوعات المؤلفة من توزيع الكلمات. تختص هذه الموضوعات بكل مستند في المجموعة. لإنشاء مستند معين (في هذا المثال، مسرحية عطيل لشكسبير)، تُنشئ الآلة توزيعًا للموضوعات، وهو الرسم البياني الموجود في أقصى اليمين. يعرض هذا التوزيع الموضوعات (ونسبة محددة لكل منها) التي سيتألف منها المستند. بالنسبة إلى كل كلمة موجودة في المستند، تختار الآلة بشكل عشوائي أحد الموضوعات المختارة (عمود النقاط الملونة)، ثم تختار منه كلمة (المصطلحات المميزة) عشوائيًا.² لاحظ أن هذا التصور ما هو إلا مثال توضيحي، وليس نتيجة فعلية لنمذجة موضوع أو عملية إنشاء نص. ومع ذلك، كما ذكرنا سابقًا، يتعامل تخصيص دركليه الكامن (LDA) مع كل مستند ينتج عن عملية الإنشاء العامة هذه، والتي يحاول LDA هندستها عكسيًا.

كيف يعمل تخصيص Dirichlet الكامن

ويتعامل تخصيص دركليه الكامن (LDA) مع المستندات عبر المجموعات كحقائب كلمات، مثله مثل الكثير من طرق نمذجة الموضوعات الأخرى كالتحليل الدلالي الكامن (LSA). ما يعني أن تخصيص دركليه الكامن (LDA) يتجاهل ترتيب الكلمات والسياق. ويركز على مدى تكرار الكلمات وعدد مرات تشارك الكلمات في الظهور مع بعضها داخل كل مستند على حدة.³ ويُوضع معدل تكرار الكلمات ومعدل ظهورها مع بعضها في مصفوفة المصطلحات والمستندات. في هذه المصفوفة، تُوضع المستندات في صفوف والكلمات الفردية في أعمدة، أو العكس. تشير قيمة كل خلية في المصفوفة إلى معدل تكرار ظهور كلمة معينة في كل مستند.⁴

إنشاء المواضيع

وباستخدام مصفوفة المصطلحات والمستندات، تُنشئ خوارزمية تخصيص دركليه الكامن (LDA) توزيعات الموضوعات (أي قوائم بالكلمات الرئيسية مع الاحتمالات ذات الصلة) وفقًا لمعدل تكرار الكلمات وظهورها مع بعضها. ومن خلال تتبع معدل ظهور الكلمات مع بعضها، تفترض الخوارزمية أن الكلمات التي تظهر معًا تنتمي على الأرجح إلى موضوعات مماثلة. تحدد الخوارزمية توزيعات الموضوعات والمستندات بناءً على مجموعات الكلمات التي تظهر في المستند المحدد.⁵

فعلى سبيل المثال، لنفترض أننا أنشأنا نموذج تخصيص دركليه الكامن (LDA) لمجموعة من المقالات الإخبارية التي تحتوي على المخرجات الجزئية الآتية:

لدينا هنا موضوعان يمكن وصفهما، على الأرجح، بالهجرة (الموضوع 1) والفلك (الموضوع 2). تمثل الدرجات المرتبطة بكل كلمة احتمالية ظهور تلك الكلمة الرئيسية في الموضوع المحدد لها. أما الاحتمالات المرتبطة بكل وثيقة فهي تمثل احتمالات انتماء تلك الوثيقة إلى مزيج من الموضوعات بناءً على التوزيع وترافق الكلمات من كل موضوع داخل تلك الوثيقة. فعلى سبيل المثال، يسرد الصف الأول في الجدول كلمة الحدود تحت الموضوع 1 باحتمالية 40% وكلمة الفضاء تحت الموضوع 2 باحتمالية 60%. وتشير هذه النسب المئوية إلى احتمالية ورود تلك المصطلحات في الموضوع على مستوى النص الكامل. يقرأ الصف الأول للوثيقة الوثيقة 1: الموضوع 1: 0.95، الموضوع 2: 0.05. وهذا يعني أنه بناءً على ورود الكلمات في الوثيقة 1، يتوقع النموذج أن الوثيقة 1 مشتقة بنسبة 95% من الموضوع 1 وبنسبة 5% من الموضوع 2. بعبارة أخرى، يفترض نموذجنا الافتراضي (LDA) أن هذه هي الموضوعات والنسب المئوية لتلك الموضوعات التي جرى استخدامها لإنشاء النموذج.

وبالطبع فإن الكلمات متعددة المعاني تشكل تحديًّا لهذا التصنيف المنفصل-على سبيل المثال، كلمة alien [دَخِيل] قد تشير إلى مهاجر بشري أو كائن فضائي (من خارج كوكب الأرض). في مثل هذه الحالات، كيف تحدد خوارزمية تخصيص دركليه الكامن (LDA) الموضوع الذي تنتمي إليه الكلمة (ومن ثَمَّ ينتمي إليه المستند)؟

صيغة جيبس (Gibbs)

عند تعيين الموضوعات للكلمات، تستخدم خوارزمية تخصيص Dirichlet الكامن (LDA) ما يُعرف بمعاينة Gibbs. صيغة معاينة جيبس هي:

يتطلب فهم العمليات الدقيقة لهذه المعادلة ومعلمات ضبطها الفائقة معرفة أساسية بعلم الإحصاء وتقنيات سلسلة Markov Monte Carlo (تُستَخدَم هذه التقنيات غالبًا في التعلم المعزز). ومع ذلك، يمكننا تلخيص العناصر الرئيسية للمعادلة على النحو التَّالي:

النسبة الأولى تعبر عن احتمالية الموضوع t في الوثيقة d. تحسب الخوارزمية هذه الاحتمالية بناءً على عدد الكلمات في الوثيقة d التي تنتمي إلى الموضوع t. ويسأل هذا بشكل أساسي: ما مدى انتشار الموضوع t في الوثيقة d؟
وتعبر النسبة الثانية عن احتمالية انتماء الكلمة w إلى الموضوع t. وتحسب الخوارزمية هذه الاحتمالية عن طريق تعداد مرات ورود الكلمة w في الموضوع t على مستوى جميع رموز الكلمات المميزة في الموضوع t. وهذا يطرح سؤالًا: ما معدل تكرار ظهور الكلمة w في الموضوع t طوال بقية النصوص الكامل؟

لاحظ أن معاينة جبس (Gibbs sampling) تُعد عملية متكررة. ما يعني أن الكلمة لا يؤخذ منها عينة واحدة فقط، ثم تُصنف إلى إحدى الموضوعات، ثم تُهمل بعد ذلك. بل تُخضع معاينة جبس كل كلمة إلى العديد من العمليات المتكررة، ما يؤدي إلى تحديث احتمالات الكلمات والموضوعات بناءً على العلاقة بينهما.⁶

تصنيف النص

الميزة التي تميز تخصيص دركليه الكامن (LDA) هي التوزيع الاحتمالي لكل مستند على مجموعة مشتركة من الموضوعات. كما هو الحال مع طرق نمذجة الموضوعات الأخرى، فإن هذه الموضوعات وتوزيعاتها في كل مستند تكون مجهولة. نمذجة الموضوعات هي عملية غير موجّهة؛ فلا توجد بيانات مُصنفة يدويًا توجّه عمليات التحليل. ومن خلال الكشف عن هياكل الموضوعات الخفية، يضع تخصيص دركليه الكامن (LDA) في النهاية تعليقات توضيحية للمستندات في المجموعة. يمكن استخدام هذه التعليقات التوضيحية (أي الموضوعات المكتشفة) لتصنيف النصوص. وبهذه الطريقة، يساعد تخصيص دركليه الكامن (LDA) أنظمة استرجاع المعلومات عن طريق أتمتة عملية وضع التعليقات التوضيحية على مجموعات كبيرة من المستندات وتنظيمها.⁷

التحسين

كما هو الحال مع العديد من تقنيات استخراج النصوص في علم البيانات، تعمل مهام ما قبل معالجة النصوص على تحسين نتائج نموذج تخصيص دركليه الكامن (LDA) بشكل كبير. إزالة الكلمات الشائعة تعني إزالة الكلمات المشتركة التي ليس لها معنى دلاليًا. يساعد التجذيع أو التجريد على إرجاع المشتقات الصرفية إلى أصول الكلمات، ومن ثَم تجميع مشتقات الكلمات التي قد تفصلها الآلة في حالة أخرى، مثل كلمة رقص والرقص والراقصة وما إلى ذلك.

ونظرًا لأن نماذج تخصيص دركليه الكامن (LDA) هي نماذج احتمالية وليست حتمية، فقد يكون تحسين النموذج عملية صعبة. ولا يوجد عدد محدد من المواضيع التي تحقق أفضل النتائج، ولا يبدو أن هناك أي مبدأ توجيهي، مثل عدد محدد من المواضيع المناسبة لعدد معين من الوثائق. وفي الواقع إن الضبط الدقيق لمعلمات النماذج لإنتاج مواضيع قابلة للتفسير ومتماسكة ينطوي على قدر كبير من التجربة والخطأ.

مقاييس التقييم

ما الأدوات أو المقاييس المتاحة لمساعدة المستخدم على ضبط نموذج تخصيص دركليه الكامن (LDA)؟ بالنسبة إلى الجدد في نمذجة المواضيع، قد يكون من المحبط معرفة أنه لا يوجد مقياس أداء واحد أو حتى مجموعة من مقاييس الأداء المعتمدة في الأدب.

النوعي. صدق أو لا تصدق، التقييم النوعي ليس أمرًا غير شائع، لا سيما في التطبيقات الواقعية. قد يتضمن ذلك غالبًا فحص أهم خمس أو عشر كلمات رئيسية لكل موضوع. ثم تُستخدم هذه الكلمات بعد ذلك لتقييم الموضوعات وفقًا لمدى قدرة المستخدمين البشر على تفسيرها.⁸ هذا النوع من "التدقيق البصري"، إذا صح التعبير، يتطلب سعة المعرفة المتخصصة في المجال ومعرفة المستندات المدرجة.⁹

التماسك. يُعد تماسك الموضوعات أحد الطرق الكمية الشائعة لتقييم الموضوعات التي أُنشئت. تعكس درجة تماسك الموضوع عدد مرات ظهور الكلمات الأكثر احتمالاً مع بعضها في موضوع معين في المستندات نفسها عبر المجموعة. وبشكلٍ أكثر تحديدًا، فهي تحسب معدل تكرار ظهور كل زوج من الكلمات التي تُعد من ضمن أهم عدد من سلاسل الكلمات في الموضوع مع بعضهما مقابل معدل تكرار كل كلمة على حدة عبر المجموعة. وذلك يهدف إلى تحديد مدى تماسك موضوع معين. تعكس درجة التماسك الإجمالية للنموذج متوسط درجة تماسك كل موضوع على حدة. ففي الواقع، تشير هذه النتيجة الإجمالية إلى متوسط درجة تماسك الموضوعات داخل نموذج معين. يُقيّم التماسك - كما هو واضح من اسمه - النماذج فقط على حسب مدى تماسك موضوعاتها. كما ينبغي أن تحافظ الموضوعات على درجة من التميز، إلا إنه لا يوجد حاليًا مقياس كمي لقياس ذلك.¹⁰

تُظهر الأبحاث الحديثة أن المقاييس الكمية - مثل مقياس درجة التماسك - لا يمكن الاعتماد عليها في تقييم نماذج الموضوعات. ويرجع ذلك جزئيًا إلى غموض الهدف التقييمي المزعم المتمثل في قابلية التفسير—ما الذي يجعل النموذج ونتائجه قابلة للتفسير؟¹¹ وعلاوة على ذلك، قد لا تكون المقاييس الآلية المصممة للأنظمة القديمة مناسبة للأنظمة الحديثة. وهذه المشكلة تزداد تعقيدًا بسبب انعدام الشفافية في العديد من التجارب المنشورة التي تمنع تعميم طرق التقييم على مجموعات بيانات أو مجالات أخرى.¹² وقد لجأت الأبحاث مؤخرًا إلى تطبيقات الذكاء الاصطناعي، وخصوصًا النماذج اللغوية الكبرى (LLMs)، كوسيلة لتصميم نماذج LDA وتقييمها لتحقيق الهدف من البحث.¹³ ورغم أن هذه الطريقة حققت نتائج مبهرة، إلا إنه لا بد من إجراء المزيد من الأبحاث.

الحواشي

¹ Daniel Jurafsky وJames Martin، معالجة الكلام واللغات: مقدمة في معالجة اللغة الطبيعية واللغويات الحاسوبية والتعرف على الكلام، الطبعة الثالثة، عام 2023، https://web.stanford.edu/~jurafsky/slp3/. Jay Alammar وMaarten Grootendorst، ، دليل النماذج اللغوية الكبرى، O’Reilly، عام 2024.

² David Blei، "نماذج الموضوعات الاحتمالية"، مجلة Communications of the ACM، مجلد 55، العدد 4، عام 2012، ص. 77-84. Zhiyuan Chen وBing Liu، "نماذج الموضوعات لتطبيقات معالجة اللغات الطبيعية"، موسوعة التعلم الآلي واستخراج البيانات، Springer، عام 2020.

³ Matthew Jockers، كتاب Text Analysis with R for Students of Literature، Springer، عام 2014.

⁴ Cole Howard، وHobson Lane، وHannes Hapke، آلية معالجة اللغة الطبيعية، Manning Publications، عام 2019. Sowmya Vajjala، وBodhisattwa Majumder، وAnuj Gupta، وHarshit Surana، دليل عملي لمعالجة اللغة الطبيعية، O’Reilly، عام 2020.

⁵ Sowmya Vajjala، وBodhisattwa Majumder، وAnuj Gupta، وHarshit Surana، دليل عملي لمعالجة اللغة الطبيعية، O’Reilly، عام 2020.David Blei، وAndrew Ng، وMichael Jordan، "تخصيص دركليه الكامن"، مجلة Machine Learning Research، مجلد 3، عام 2003، ص. 993-1022.

⁶ Zhiyuan Chen وBing Liu، "نماذج الموضوعات لتطبيقات معالجة اللغات الطبيعية"، موسوعة التعلم الآلي واستخراج البيانات، Springer، عام 2017.

⁷ 7 David Blei، "نماذج الموضوعات الاحتمالية"، مجلة Communications of the ACM، المجلد 55، العدد 4، عام 2012، ص. 77-84.

⁸ Chandler Camille May، "رسالة Topic Modeling in Theory and Practice" (نمذجة الموضوعات: النظرية والتطبيق)، جامعة جون هوبكنز، عام 2022.

⁹ Matthew Gillings وAndrew Hardie، "تفسير نماذج الموضوعات للتحليل العلمي: تقييم الممارسات الحالية ونقدها"، المنحة الرقمية في العلوم الإنسانية، المجلد 38، العدد 2، عام 2023، ص. 530-543، https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

¹⁰ Chandler Camille May، "رسالةTopic Modeling in Theory and Practice" (نمذجة الموضوعات: النظرية والتطبيق)، جامعة جون هوبكنز، عام 2022.. https://aclanthology.org/D11-1024/

¹¹ Zachary Lipton، "The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery"، مجلة Queue، المجلد 16، العدد 3، ص. 31-57، https://dl.acm.org/doi/10.1145/3236386.3241340 . Caitlin Doogan وWray Buntine، "نمذجة الموضوعات بين الحقيقة والخيال" "إعادة النظر في مقاييس التفسير الدلالي"، وقائع مؤتمر جمعية اللغويات الحاسوبية الفرع الأمريكي الشمالي لعام 2021: تقنيات اللغة البشرية، عام 2021، ص. 3824-3848، https://aclanthology.org/2021.naacl-main.300 .

¹² Alexander Hoyle، وPranav Goel، و Andrew Hian-Cheong، وDenis Peskov، وJordan Boyd-Graber، و Philip Resnik، "هل فشل التقييم الآلي لنماذج الموضوعات؟ اختلال الاتساق"، مؤتمر أنظمة معالجة المعلومات العصبية المتقدمة، عام 2021، ص. 2018-2033، https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html . Caitlin Doogan وWray Buntine، "نمذجة الموضوعات بين الحقيقة والخيال" "إعادة النظر في مقاييس التفسير الدلالي"، وقائع مؤتمر جمعية اللغويات الحاسوبية الفرع الأمريكي الشمالي لعام 2021: تقنيات اللغة البشرية، عام 2021، ص. 3824-3848، https://aclanthology.org/2021.naacl-main.300 .

¹³ Dominik Stammbach، وVilém Zouhar، و Alexander Hoyle، وMrinmaya Sachan، وElliott Ash، "إعادة النظر في التقييم الآلي لنماذج الموضوعات باستخدام النماذج اللغوية الكبرى"، وقائع مؤتمر عام 2023 حول الأساليب التجريبية في معالجة اللغة الطبيعية، عام 2023، ص. 9348-9357، https://aclanthology.org/2023.emnlp-main.581/ .