My IBM Log in اشترك

ما هو Named Entity Recognition؟

26 أغسطس 2023

ما هو Named Entity Recognition؟

Named Entity Recognition (NER)—أيضًا يُطلق عليه اسم تجميع الكيانات أو استخراج الكيانات—هو عنصر من معالجة اللغة الطبيعية (NLP) الذي يحدد فئات الكائنات المحددة مسبقًا في نص ما.

يمكن أن تشمل هذه الفئات، على سبيل المثال لا الحصر، أسماء الأفراد والمؤسسات والمواقع وتعبيرات الأوقات والكميات والرموز الطبية والقيم النقدية والنسب المئوية، من بين أمور أخرى. وبشكل أساسي، فإن Named Entity Recognition (NER) هو عملية أخذ سلسلة من النص (أي جملة أو فقرة أو مستند كامل)، وتحديد وتصنيف الكيانات التي تشير إلى كل فئة.

عندما تمت صياغة مصطلح «NER» في المؤتمر السادس لفهم الرسائل (MUC-6)، كان الهدف هو تبسيط مهام استخراج المعلومات، والتي تضمنت معالجة كميات كبيرة من النصوص غير المنظمة وتحديد المعلومات الأساسية. ومنذ ذلك الحين، توسع وتطور مفهوم NER، ويعود الفضل في الكثير من تطوره إلى التقدم في تقنيات التعلم الآلي والتعلم العميق.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

تقنيات NER

وفقًا لاستطلاع أجري في عام 2019، تعتمد حوالي 64% من الشركات على البيانات المنظمة من الموارد الداخلية، ولكن أقل من 18% منها تستفيد من البيانات غير المنظمة وتعليقات وسائل التواصل الاجتماعي لتوجيه قرارات الأعمال1.

تعتمد المؤسسات التي تستخدم NER لاستخراج البيانات غير المنظمة على مجموعة من النُهج، ولكن معظمها يقع في ثلاث فئات عريضة: النُهج القائمة على القواعد، ونُهج التعلم الآلي، والنُهج الهجينة.

  • النُهج القائمة على القواعد تشمل إنشاء مجموعة من القواعد لقواعد اللغة. ثم يتم استخدام القواعد لتحديد الكيانات في النص بناء على ميزاتها الهيكلية والنحوية. قد تستغرق هذه الطرق وقتًا طويلاً وقد لا تعمم بشكل جيد على البيانات غير المرئية.
  • تتضمن نُهج التعلم الآلي تدريب نموذج التعلم الآلي القائم على الذكاء الاصطناعي على مجموعة بيانات مصنفة باستخدام خوارزميات مثل الحقول العشوائية الشرطية والحد الأقصى للإنتروبيا (نوعان من نماذج اللغة الإحصائية المعقدة). ويمكن أن تتراوح التقنيات من طرق التعلم الآلي التقليدية (على سبيل المثال أشجار القرارات وآلات المتجهات الداعمة) إلى نُهج التعلم العميق الأكثر تعقيدًا، مثل الشبكات العصبية المتكررة (RNNs) والمحولات. تعمم هذه الطرق بشكل أفضل على البيانات غير المرئية، لكنها تتطلب كمية هائلة من بيانات التدريب المصنفة ويمكن أن تكون مكلفة حاسوبيًا.
  • النُهج الهجينة تجمع بين أساليب التعلّم الآلي والأنظمة القائمة على القواعد للاستفادة من نقاط القوة في كليهما. حيث يمكنها استخدام نظام قائم على القواعد لتحديد الكيانات التي يسهل التعرف عليها بسرعة ونظام التعلم الآلي لتحديد الكيانات الأكثر تعقيدًا.
Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

منهجيات NER

منذ إنشاء NER، كانت هناك بعض التطورات المنهجية المهمة، خاصة تلك التي تعتمد على التقنيات القائمة على التعلم العميق. تتضمن التكرارات الأحدث ما يلي:

  • الشبكات العصبية المتكررة (RNNs) والذاكرة القصيرة المدى المطولة(LSTM). الشبكات العصبية المتكررة (RNNs) هي نوع من الشبكات العصبية المصممة لحل مشاكل التنبؤ بالتسلسل. يمكن للذاكرة القصيرة المدى المطولة (LSTM)، وهي نوع خاص من الشبكات العصبية المتكررة (RNNs)، تعلم التعرف على الأنماط بمرور الوقت والحفاظ على المعلومات في "الذاكرة" عبر تسلسلات طويلة، ما يجعلها مفيدة بشكل خاص لفهم السياق وتحديد الكيانات.
  • الحقول العشوائية المشروطة (CRFs). غالبًا ما تُستخدم الحقول العشوائية المشروطة (CRFs) جنبًا إلى جنب مع الذاكرة القصيرة المدى المطولة (LSTM) لمهام NER. حيث يمكنها نمذجة الاحتمال الشرطي لسلسلة كاملة من التسميات، بدلاً من مجرد تسميات فردية، ما يجعلها مفيدة للمهام التي تعتمد فيها تسمية الكلمة على تسميات الكلمات المحيطة.
  • المحولات وتمثيلات التشفير ثنائية الاتجاه من المحولات (BERT).كان لشبكات المحولات، لا سيما نماذج تمثيلات التشفير ثنائية الاتجاه من المحولات (BERT)، تأثير كبير في NER.فباستخدام آلية الانتباه الذاتي التي تزن أهمية الكلمات المختلفة، تأخذ تمثيلات التشفير ثنائية الاتجاه من المحولات (BERT) في الحسبان السياق الكامل للكلمة من خلال النظر إلى الكلمات التي تأتي قبلها وبعدها.

عملية NER

الخطوة 1. جمع البيانات

الخطوة الأولى من عملية NER هي تجميع مجموعة بيانات من النص المشروح. يجب أن تحتوي مجموعة البيانات على أمثلة نصية حيث تتم تصنيف الكيانات المسماة أو تمييزها، مع الإشارة إلى أنواعها. يمكن إجراء التعليقات التوضيحية يدويًا أو باستخدام طرق تلقائية.

الخطوة 2. المعالجة المسبقة للبيانات

بمجرد جمع مجموعة البيانات، يجب تنظيف النص وتنسيقه. قد تحتاج إلى إزالة الأحرف غير الضرورية و/أو تحييد النص و/أو تقسيم النص إلى جمل أو رموز مميزة.

الخطوة 3. استخراج الميزات

خلال هذه المرحلة، يتم استخراج الميزات ذات الصلة من النص المعالج مسبقًا. يمكن أن تتضمن هذه الميزات وضع علامات على جزء من الكلام (POS tagging) وتضمين الكلمات والمعلومات السياقية، من بين أمور أخرى. سيعتمد اختيار الميزات على نموذج NER المحدد الذي تستخدمه المؤسسة.

الخطوة 4. تدريب النموذج

الخطوة التالية هي تدريب نموذج التعلم الآلي أو التعلم العميق باستخدام مجموعة البيانات المشروحة والميزات المستخرجة. يتعلم النموذج تحديد الأنماط والعلاقات بين الكلمات في النص، بالإضافة إلى تصنيفات الكيانات المسماة المقابلة لها.

الخطوة 5. تقييم النماذج

بعد تدريب نموذج NER، يجب تقييمه لتقييم أدائه. يمكنك قياس معايير مثل الدقة والاستدعاء ودرجة F1، والتي تشير إلى مدى جودة النموذج في تحديد الكيانات المسماة وتصنيفها بشكل صحيح.

الخطوة 6. الضبط الدقيق للنموذج

بناء على نتائج التقييم، ستقوم بتحسين النموذج من أجل تحسين أدائه. يمكن أن يشمل ذلك ضبط المعلمات الفائقة و/أو تعديل بيانات التدريب و/أو استخدام تقنيات أكثر تقدمًا (على سبيل المثال التجميع أو التكييف حسب المجال).

الخطوة 7. الاستدلال

في هذه المرحلة، يمكنك البدء في استخدام النموذج للاستدلال على نص جديد غير مرئي. سيأخذ النموذج نص الإدخال، ويطبق خطوات المعالجة المسبقة، ويستخرج الميزات ذات الصلة، ويتنبأ في النهاية بتسميات الكيانات المسماة لكل رمز مميز أو نطاق نصي.

الخطوة 8. المعالجة اللاحقة

قد يخضع ناتج نموذج NER لخطوات المعالجة اللاحقة من أجل تحسين النتائج و/أو إضافة معلومات سياقية. قد تحتاج إلى إكمال مهام مثل ربط الكيانات، حيث يتم ربط الكيانات المسماة بقواعد المعرفة أو قواعد البيانات لمزيد من الإثراء.

تنفيذ عملية NER

أسهل طريقة لتنفيذ نظام Named Entity Recognition هي الاعتماد على واجهة برمجة التطبيقات (API). واجهات برمجة تطبيقات NER هي واجهات قائمة على الويب أو محلية تتيح الوصول إلى وظائف NER. بعض الأمثلة الشائعة لواجهات برمجة تطبيقات NER هي:

مجموعة أدوات اللغة الطبيعية (NLTK)

مجموعة أدوات اللغة الطبيعية (NLTK) هي منصة مفتوحة المصدر رائدة لبناء برامج Python للعمل مع بيانات اللغة البشرية.وتوفر واجهات سهلة الاستخدام لأكثر من 100 نموذج مدرب على الاستخراج2.كما تتضمن مكتبات معالجة النصوص للتصنيف، والترميز، والاشتقاق، ووضع العلامات، والتحليل، والاستدلال الدلالي.تشتمل مجموعة أدوات اللغة الطبيعية (NLTK) على مصنف خاص للتعرف على الكيانات المسماة Ne_chunk، ولكنها توفر أيضًا مغلّفًا لاستخدام علامة Stanford NER في Python.

Stanford Named Entity Recognizer

لقد طورت جامعة ستانفورد تطبيق Stanford NER، وهو تطبيق Java الذي يُعد مكتبة استخراج الكيانات القياسية على نطاق واسع. وهو يعتمد على نموذج الحقول العشوائية المشروطة (CRF) ويوفر نماذج مدربة مسبقًا لاستخراج الكيانات المسماة.

SpaCy

مكتبة SpaCy هي مكتبة برمجيات مفتوحة المصدر للبرمجة اللغوية العصبية المتقدمة، وهي مكتوبة بلغة Python ومعروفة بسرعتها وسهولة استخدامها.فهي مبنية على أحدث الأبحاث وتم تصميمها لاستخدامها مع المنتجات الحقيقية.كما أن لديها نظامًا إحصائيًا متقدمًا يسمح للمستخدمين ببناء مستخلصات NER مخصصة.

تطبيقات NER

مع استمرار تطور التقنيات، ستصبح أنظمة NER أكثر انتشارًا، ما يساعد المؤسسات على فهم البيانات التي تواجهها كل يوم. وحتى الآن، أثبتت فعاليتها في قطاعات متعددة، بدايةً من الرعاية الصحية والشؤون المالية وحتى خدمة العملاء والأمن السيبراني.

بعض حالات الاستخدام الأكثر تأثيرًا:

استخراج المعلومات

عملية NER هي الخطوة الأولى الحاسمة في استخراج معلومات مفيدة ومنظمة من قواعد بيانات كبيرة غير منظمة. حيث تستخدم محركات البحث عملية NER لتحسين ملاءمة نتائج البحث ودقتها.

أتمتة تجميع الأخبار

يستخدم مجمعو الأخبار عملية NER لتصنيف المقالات والقصص بناء على الكيانات المسماة التي تحتوي عليها، ما يتيح طريقة أكثر تنظيمًا وفعالية لتقديم الأخبار للجماهير. على سبيل المثال، تعمل NER لتطبيقات الأخبار على أتمتة عملية التصنيف، وجمع القصص الإخبارية المتشابهة معًا وتوفير رؤية أكثر شمولاً لأحداث إخبارية بعينها.

مراقبة وسائل التواصل الاجتماعي

مع انتشار منصات التواصل الاجتماعي، أصبحت كمية البيانات النصية المتاحة للتحليل هائلة جدًا. وتلعب NER دورًا مهمًا في تحليل وسائل التواصل الاجتماعي، وتحديد الكيانات الرئيسية في المنشورات والتعليقات لفهم الاتجاهات والآراء العامة حول الموضوعات المختلفة (خاصة الآراء المتعلقة بالعلامات التجارية والمنتجات). يمكن أن تساعد هذه المعلومات الشركات على إجراء تحليلات للمشاعر وتطوير إستراتيجيات التسويق وصياغة استجابات خدمة العملاء وتسريع جهود تطوير المنتجات.

روبوتات المحادثة والمساعدون الافتراضيون

يستخدم المساعدون الافتراضيون وروبوتات المحادثة المدعومة بالذكاء الاصطناعي التوليدي عملية NER لفهم طلبات المستخدمين واستفسارات دعم العملاء بدقة.فمن خلال تحديد الكيانات المهمة في استعلامات المستخدمين، يمكن لهذه الأدوات التي تعمل بنظام الذكاء الاصطناعي توفير استجابات دقيقة ومحددة السياق.على سبيل المثال، في الاستعلام "البحث عن مطاعم مأكولات بحرية بالقرب من الحديقة العامة"، تساعد عملية NER المساعد على فهم "مأكولات بحرية" على أنها الطعام، و"مطاعم" على أنها نوع المنشأة، و"الحديقة العامة" على أنها الموقع.

الأمن الإلكتروني

في مجال الأمن السيبراني، تساعد عملية NER الشركات على تحديد التهديدات المحتملة وحالات الخلل في سجلات الشبكات والبيانات الأخرى المتعلقة بالأمن. على سبيل المثال، يمكنها تحديد عناوين IP وعناوين URL وأسماء المستخدمين وأسماء الملفات المريبة في سجلات أمان الشبكة. وعلى هذا النحو، يمكن أن تسهل عملية NER التحقيقات الأكثر شمولاً في الحوادث الأمنية وتحسن الأمن العام للشبكة.

التحديات التي تواجه استخدام نماذج NER

لقد قطعت نماذج NER شوطًا طويلاً منذ إنشائها، حيث دمجت التقنيات المبتكرة وتوسعت بغزارة في فائدتها على طول الطريق. ومع ذلك، هناك بعض التحديات الجديرة بالملاحظة التي يجب مراعاتها عند تقييم تقنيات NER.

على الرغم من أن نماذج NER قد أحرزت الكثير من التقدم للغات مثل الإنجليزية، فهي لا تتمتع بمستوى الدقة نفسه للعديد من اللغات الأخرى.وغالبًا ما يكون هذا بسبب نقص البيانات المصنفة بهذه اللغات. تُعد نماذج NER عبر اللغات، والتي تتضمن نقل المعرفة من لغة إلى أخرى، مجالاً نشطًا للبحث قد يساعد في سد الفجوة اللغوية في NET.

في بعض الأحيان، يمكن أن تتداخل الكيانات داخل كيانات أخرى، وقد يكون التعرف على هذه الكيانات المتداخلة أمرًا صعبًا. على سبيل المثال، في الجملة "تم تأسيس جامعة ولاية بنسلفانيا، حديقة الجامعة، في عام 1855"، نجد أن كلاً من "جامعة ولاية بنسلفانيا" و"جامعة ولاية بنسلفانيا، حديقة الجامعة" كيانان صالحان.

علاوة على ذلك، في حين أن نماذج NER العامة يمكن أن تحدد كيانات مشتركة مثل الأسماء والمواقع، إلا أنها قد تواجه صعوبات مع كيانات خاصة بمجال معين. على سبيل المثال، في المجال الطبي، قد يكون تحديد مصطلحات معقدة مثل أسماء الأمراض أو أسماء الأدوية أمرًا صعبًا. ومن ثَمَّ يمكن تدريب نماذج NER الخاصة بمجال معين على بيانات متخصصة خاصة بالمجال، ولكن الحصول على تلك المعلومات يمكن أن يكون في حد ذاته أمرًا صعبًا.

قد تواجه نماذج NER أيضًا مشكلات أوسع نطاقًا تتعلق بالغموض (على سبيل المثال، قد يشير "Apple" إلى فاكهة أو شركة تكنولوجيا)؛ وتنوع اسم الكيان (على سبيل المثال، "USA" و"USA" و"United States" و"United States of America" تشير جميعها إلى البلد نفسه)؛ والمعلومات السياقية المحدودة (حيث لا تحتوي النصوص و/أو الجمل على سياق كافٍ لتحديد الكيانات وتصنيفها بدقة).

على الرغم من أن نماذج NER لها تحدياتها، إلا أن التطورات المستمرة تعمل باستمرار على تحسين دقتها وقابليتها للتطبيق، ومن ثَمَّ تساعد على تقليل تأثير الفجوات التكنولوجية الحالية.

مستقبل نماذج NER

على الرغم من أن نماذج NER هي مجال راسخ، إلا أنه لا يزال هناك الكثير من العمل الذي يتعين القيام به. 

بإلقاء نظرة على المستقبل، فإن أحد المجالات الواعدة هو تقنيات التعلم غير الخاضعة للإشراف لنماذج NER. ففي حين أن تقنيات التعلم الخاضعة للإشراف قد حققت أداءً جيدًا، إلا أنها تتطلب الكثير من البيانات المصنفة، والتي قد يكون من الصعب الحصول عليها. لا تتطلب تقنيات التعلم غير الخاضعة للإشراف بيانات مصنفة ويمكن أن تساعد المؤسسات في التغلب على تحديات توافر البيانات.

ومن الاتجاهات الأخرى المثيرة للاهتمام تكامل طريقة الإنصاف اللغوي العصبي مع مهام البرمجة اللغوية العصبية الأخرى. على سبيل المثال، يمكن أن تسمح نماذج NER المشتركة وربط الكيانات (التي تتضمن ربط الكيانات بمدخلاتها المقابلة في قاعدة معارف) أو NER وحل المرجع المشترك (الذي يتضمن تحديد متى يشير تعبيران أو أكثر في النص إلى الكيان نفسه) بأنظمة تفهم النص وتعالجه بشكل أفضل.

كما أن التعلم بأمثلة قليلة والتعلم متعدد النماذج يعمل على توسيع قدرات تقنيات NER. ومن خلال التعلم قليل الأمثلة، يتم تدريب النماذج على أداء المهام مع أمثلة قليلة فقط، والتي يمكن أن تكون مفيدة بشكل خاص عندما تكون البيانات المصنفة نادرة. ومن ناحية أخرى، يتضمن NER متعدد النماذج دمج النص مع أنواع الكيانات الأخرى. على سبيل المثال، يمكن لصورة أو جزء من الصوت توفير سياق إضافي يساعد في التعرف على الكيانات.

حلول ذات صلة

حلول ذات صلة

IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM® watsonx™ Orchestrate®.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية
الحواشي