الصفحة الرئيسية

الموضوعات

Named Entity Recognition

ما هو Named Entity Recognition؟
تطبيق Named Entity Recognition مع IBM سجل للتعرف على تحديثات الذكاء الاصطناعي
رسم توضيحي يحتوي على مجموعة من الرموز التوضيحية على شكل سُحُب، ومخطط دائري، ورسم بياني من الرموز التوضيحية
ما هو Named Entity Recognition؟

تطبيق Named Entity Recognition (NER) - يُطلق عليه أيضًا اسم تقطيع الكيانات أو استخراج الكيانات - هو أحد مكونات معالجة اللغة الطبيعية (NLP) الذي يحدد فئات الكائنات المحددة مسبقًا في نص ما.

يمكن أن تشمل هذه الفئات، على سبيل المثال لا الحصر، أسماء الأفراد والمنظمات والمواقع وتعبيرات الأوقات والكميات والرموز الطبية والقيم النقدية والنسب المئوية، من بين أمور أخرى. وبشكل أساسي، فإن تطبيق Named Entity Recognition (NER) هو عملية أخذ سلسلة من النص (أي جملة أو فقرة أو مستند كامل)، وتحديد وتصنيف الكيانات التي تشير إلى كل فئة.

عندما تمت صياغة مصطلح "NER" في مؤتمر فهم الرسائل السادس (MUC-6) ، كان الهدف هو تبسيط مهام استخراج المعلومات، والتي تضمنت معالجة كميات هائلة من النصوص غير المنظمة وتحديد المعلومات الأساسية. ومنذ ذلك الحين، توسع مفهوم NER وتطور، ويرجع ذلك في الكثير من تطوره إلى التقدم في تقنيات التعلم الآلي والتعلم العميق.

لماذا تعتبر حوكمة الذكاء الاصطناعي ضرورة تجارية لتوسيع نطاق الذكاء الاصطناعي للمؤسسات

تعرَّف على المعوقات التي تَحُول دون اعتماد الذكاء الاصطناعي، لا سيما عدم تطبيق حوكمة الذكاء الاصطناعي، وعدم إيجاد حلول لإدارة المخاطر.

محتوى ذو صلة قراءة دليل قادة البيانات
تقنيات NER

وفقًا لاستطلاع أجري في عام 2019، تعتمد حوالي 64% من الشركات على البيانات المنظمة من الموارد الداخلية، ولكن أقل من 18% منها تستفيد من البيانات غير المنظمة وتعليقات وسائل التواصل الاجتماعي لإبلاغ قرارات الأعمال1.

تعتمد المؤسسات التي تستخدم NER لاستخراج البيانات غير المهيكلة على مجموعة من النُهج، ولكن معظمها يقع في ثلاث فئات عريضة: النُهج القائمة على القواعد، ونُهج التعلم الآلي، والنُهج الهجينة.

  • تتضمن النُهج القائمة على القواعد إنشاء مجموعة من القواعد لقواعد اللغة. ثم يتم استخدام القواعد لتحديد الكيانات في النص بناء على ميزاتها الهيكلية والنحوية. قد تستغرق هذه الطرق وقتًا طويلاً وقد لا تعمم بشكل جيد على البيانات غير المرئية.
  • تتضمن نُهج التعلم الآلي تدريب نموذج التعلم الآلي القائم على الذكاء الاصطناعي على مجموعة بيانات مصنفة باستخدام خوارزميات مثل الحقول العشوائية الشرطية والحد الأقصى للإنتروبيا (نوعان من نماذج اللغة الإحصائية المعقدة). ويمكن أن تتراوح التقنيات من طرق التعلم الآلي التقليدية (على سبيل المثال شبكات القرارات وآلات ناقلات الدعم) إلى نُهج التعلم العميق الأكثر تعقيدًا، مثل الشبكات العصبية المتكررة (RNNs) والمحولات. تعمم هذه الطرق بشكل أفضل على البيانات غير المرئية، لكنها تتطلب كمية هائلة من بيانات التدريب المصنفة ويمكن أن تكون مكلفة حسابيًا.
  • تجمع النُهج الهجينة بين الأساليب القائمة على القواعد وأساليب التعلّم الآلي للاستفادة من نقاط القوة في كليهما. حيث يمكنها استخدام نظام قائم على القواعد لتحديد الكيانات التي يسهل التعرف عليها بسرعة ونظام التعلم الآلي لتحديد الكيانات الأكثر تعقيدًا.

 

 

منهجيات NER

منذ إنشاء NER، كانت هناك بعض التطورات المنهجية المهمة، خاصة تلك التي تعتمد على التقنيات القائمة على التعلم العميق. تتضمن التكرارات الأحدث ما يلي:

  • الشبكات العصبية المتكررة (RNNs) والذاكرة القصيرة المدى المطولة (LSTM). الشبكات العصبية المتكررة (RNNs) هي نوع من الشبكات العصبية المصممة لحل مشاكل التنبؤ بالتسلسل. يمكن للذاكرة القصيرة المدى المطولة (LSTM)، وهي نوع خاص من الشبكات العصبية المتكررة (RNNs)، تعلم التعرف على الأنماط بمرور الوقت والحفاظ على المعلومات في "الذاكرة" عبر تسلسلات طويلة، ما يجعلها مفيدة بشكل خاص لفهم السياق وتحديد الكيانات.
  • الحقول العشوائية المشروطة (CRFs). غالبًا ما تُستخدم الحقول العشوائية المشروطة (CRFs) جنبًا إلى جنب مع الذاكرة القصيرة المدى المطولة (LSTM) لمهام NER. حيث يمكنها نمذجة الاحتمال الشرطي لسلسلة كاملة من التسميات، بدلاً من مجرد تسميات فردية، ما يجعلها مفيدة للمهام التي تعتمد فيها تسمية الكلمة على تسميات الكلمات المحيطة.
  • المحولات وتمثيلات التشفير ثنائية الاتجاه من المحولات (BERT). كان لشبكات المحولات، لا سيما نماذج تمثيلات التشفير ثنائية الاتجاه من المحولات (BERT)، تأثير كبير في NER. فباستخدام آلية الانتباه الذاتي التي تزن أهمية الكلمات المختلفة، تأخذ تمثيلات التشفير ثنائية الاتجاه من المحولات (BERT) في الحسبان السياق الكامل للكلمة من خلال النظر إلى الكلمات التي تأتي قبلها وبعدها.

 

 

عملية NER
الخطوة 1. جمع البيانات

الخطوة الأولى من عملية NER هي تجميع مجموعة بيانات من النص المشروح. يجب أن تحتوي مجموعة البيانات على أمثلة نصية حيث تتم تصنيف الكيانات المسماة أو تمييزها، مع الإشارة إلى أنواعها. يمكن إجراء التعليقات التوضيحية يدويًا أو باستخدام طرق تلقائية.

الخطوة 2. المعالجة المسبقة للبيانات

بمجرد جمع مجموعة البيانات، يجب تنظيف النص وتنسيقه. قد تحتاج إلى إزالة الأحرف غير الضرورية و/أو تحييد النص و/أو تقسيم النص إلى جمل أو رموز مميزة.

الخطوة 3. استخراج الميزات

خلال هذه المرحلة، يتم استخراج الميزات ذات الصلة من النص المعالج مسبقًا. يمكن أن تتضمن هذه الميزات وضع علامات على جزء من الكلام (وضع علامات على نقاط البيع) وتضمين الكلمات والمعلومات السياقية، من بين أمور أخرى. سيعتمد اختيار الميزات على نموذج NER المحدد الذي تستخدمه المؤسسة.

الخطوة 4. تدريب النموذج

الخطوة التالية هي تدريب نموذج التعلم الآلي أو التعلم العميق باستخدام مجموعة البيانات المشروحة والميزات المستخرجة. يتعلم النموذج تحديد الأنماط والعلاقات بين الكلمات في النص، بالإضافة إلى تصنيفات الكيانات المسماة المقابلة لها.

الخطوة 5. تقييم النموذج

بعد تدريب نموذج NER، يجب تقييمه لتقييم أدائه. يمكنك قياس معايير مثل الدقة والاستدعاء ودرجة F1، والتي تشير إلى مدى جودة النموذج في تحديد الكيانات المسماة وتصنيفها بشكل صحيح.

الخطوة 6. الضبط الدقيق للنموذج

بناء على نتائج التقييم، ستقوم بتحسين النموذج من أجل تحسين أدائه. يمكن أن يشمل ذلك ضبط المعلمات الفائقة و/أو تعديل بيانات التدريب و/أو استخدام تقنيات أكثر تقدمًا (على سبيل المثال التجميع أو التكييف حسب المجال).

الخطوة 7.  الاستدلال

في هذه المرحلة، يمكنك البدء في استخدام النموذج للاستدلال على نص جديد غير مرئي. سيأخذ النموذج نص الإدخال، ويطبق خطوات المعالجة المسبقة، ويستخرج الميزات ذات الصلة، ويتنبأ في النهاية بتسميات الكيانات المسماة لكل رمز مميز أو نطاق نصي.

الخطوة 8. المعالجة اللاحقة

قد يخضع ناتج نموذج NER لخطوات المعالجة اللاحقة من أجل تحسين النتائج و/أو إضافة معلومات سياقية. قد تحتاج إلى إكمال مهام مثل ربط الكيانات، حيث يتم ربط الكيانات المسماة بقواعد المعرفة أو قواعد البيانات لمزيد من الإثراء.

تنفيذ عملية NER
تبسيط التنفيذ

أسهل طريقة لتنفيذ نظام Named Entity Recognition هي الاعتماد على واجهة برمجة التطبيقات (API). واجهات برمجة تطبيقات NER هي واجهات قائمة على الويب أو محلية تتيح الوصول إلى وظائف NER. فيما يلي بعض الأمثلة الشائعة لواجهات برمجة تطبيقات NER:

مجموعة أدوات اللغة الطبيعية (NLTK)

مجموعة أدوات اللغة الطبيعية (NLTK) هي منصة مفتوحة المصدر رائدة لبناء برامج Python للعمل مع بيانات اللغة البشرية. وتوفر واجهات سهلة الاستخدام لأكثر من 100 نموذج مدرب على الاستخراج2. كما تتضمن مكتبات معالجة النصوص للتصنيف، والترميز، والاشتقاق، ووضع العلامات، والتحليل، والاستدلال الدلالي. تشتمل مجموعة أدوات اللغة الطبيعية (NLTK) على مصنف خاص للتعرف على الكيانات المسماة Ne_chunk، ولكنها توفر أيضًا مغلّفًا لاستخدام علامة Stanford NER في Python.

Stanford Named Entity Recognizer

لقد طورت جامعة ستانفورد تطبيق Stanford NER، وهو تطبيق Java الذي يُعد مكتبة استخراج الكيانات القياسية على نطاق واسع. وهو يعتمد على نموذج الحقول العشوائية المشروطة (CRF) ويوفر نماذج مدربة مسبقًا لاستخراج الكيانات المسماة.  

SpaCy

مكتبة SpaCy هي مكتبة برمجيات مفتوحة المصدر للبرمجة اللغوية العصبية المتقدمة، وهي مكتوبة بلغة Python ومعروفة بسرعتها وسهولة استخدامها. فهي مبنية على أحدث الأبحاث وتم تصميمها لاستخدامها مع المنتجات الحقيقية. كما أن لديها نظامًا إحصائيًا متقدمًا يسمح للمستخدمين ببناء مستخلصات NER مخصصة. 

تطبيقات NER

مع استمرار تطور التقنيات، ستصبح أنظمة NER أكثر انتشارًا، ما يساعد المؤسسات على فهم البيانات التي تواجهها كل يوم. وحتى الآن، أثبتت فعاليتها في قطاعات متعددة، بدايةً من الرعاية الصحية والشؤون المالية وحتى خدمة العملاء والأمن الإلكتروني.

بعض حالات الاستخدام الأكثر تأثيرًا:

استخراج المعلومات

عملية NER هي الخطوة الأولى الحاسمة في استخراج معلومات مفيدة ومنظمة من قواعد بيانات كبيرة غير منظمة. حيث تستخدم محركات البحث عملية NER لتحسين ملاءمة نتائج البحث ودقتها.

أتمتة تجميع الأخبار

يستخدم مجمعو الأخبار عملية NER لتصنيف المقالات والقصص بناء على الكيانات المسماة التي تحتوي عليها، ما يتيح طريقة أكثر تنظيمًا وفعالية لتقديم الأخبار للجماهير. على سبيل المثال، تعمل NER لتطبيقات الأخبار على أتمتة عملية التصنيف، وجمع القصص الإخبارية المتشابهة معًا وتوفير رؤية أكثر شمولاً لأحداث إخبارية بعينها.

مراقبة وسائل التواصل الاجتماعي

مع انتشار منصات التواصل الاجتماعي، أصبحت كمية البيانات النصية المتاحة للتحليل هائلة جدًا. وتؤدي عملية NER دورًا مهمًا في تحليل وسائل التواصل الاجتماعي، وتحديد الكيانات الرئيسية في المنشورات والتعليقات لفهم الاتجاهات والآراء العامة حول الموضوعات المختلفة (خاصة الآراء المتعلقة بالعلامات التجارية والمنتجات). يمكن أن تساعد هذه المعلومات الشركات على إجراء تحليلات للمشاعر وتطوير إستراتيجيات التسويق وصياغة استجابات خدمة العملاء وتسريع جهود تطوير المنتجات.

روبوتات المحادثة والمساعدون الافتراضيون

يستخدم المساعدون الافتراضيون وروبوتات المحادثة المدعومة بالذكاء الاصطناعي التوليدي عملية NER لفهم طلبات المستخدمين واستفسارات دعم العملاء بدقة. فمن خلال تحديد الكيانات المهمة في استعلامات المستخدمين، يمكن لهذه الأدوات التي تعمل بنظام الذكاء الاصطناعي توفير استجابات دقيقة ومحددة السياق. على سبيل المثال، في الاستعلام "البحث عن مطاعم مأكولات بحرية بالقرب من الحديقة العامة"، تساعد عملية NER المساعد على فهم "مأكولات بحرية" على أنها الطعام، و"مطاعم" على أنها نوع المنشأة، و"الحديقة العامة" على أنها الموقع.

الأمن الإلكتروني

في مجال الأمن الإلكتروني، تساعد عملية NER الشركات على تحديد التهديدات المحتملة وحالات الخلل في سجلات الشبكات والبيانات الأخرى المتعلقة بالأمن. على سبيل المثال، يمكنها تحديد عناوين IP وعناوين URL وأسماء المستخدمين وأسماء الملفات المريبة في سجلات أمان الشبكة. وعلى هذا النحو، يمكن أن تسهل عملية NER التحقيقات الأكثر شمولاً في الحوادث الأمنية وتحسن الأمن العام للشبكة.

التحديات التي تواجه استخدام نماذج NER

لقد قطعت نماذج NER شوطًا طويلاً منذ إنشائها، حيث دمجت التقنيات المبتكرة وتوسعت بغزارة في فائدتها على طول الطريق. ومع ذلك، هناك بعض التحديات الجديرة بالملاحظة التي يجب مراعاتها عند تقييم تقنيات NER.  

على الرغم من أن نماذج NER قد أحرزت الكثير من التقدم للغات مثل الإنجليزية، فهي لا تتمتع بمستوى الدقة نفسه للعديد من اللغات الأخرى. وغالبًا ما يكون هذا بسبب نقص البيانات المصنفة بهذه اللغات. تُعد نماذج NER عبر اللغات، والتي تتضمن نقل المعرفة من لغة إلى أخرى، مجالاً نشطًا للبحث قد يساعد في سد الفجوة اللغوية في NET.

في بعض الأحيان، يمكن أيضًا أن تتداخل الكيانات داخل كيانات أخرى، وقد يكون التعرف على هذه الكيانات المتداخلة أمرًا صعبًا. على سبيل المثال، في الجملة "تم تأسيس جامعة ولاية بنسلفانيا، حديقة الجامعة، في عام 1855"، نجد أن كلاً من "جامعة ولاية بنسلفانيا" و"جامعة ولاية بنسلفانيا، حديقة الجامعة" كيانان صالحان. 

علاوة على ذلك، في حين أن نماذج NER العامة يمكن أن تحدد كيانات مشتركة مثل الأسماء والمواقع، إلا أنها قد تواجه صعوبات مع كيانات خاصة بمجال معين. على سبيل المثال، في المجال الطبي، قد يكون تحديد مصطلحات معقدة مثل أسماء الأمراض أو أسماء الأدوية أمرًا صعبًا. ومن ثَمَّ يمكن تدريب نماذج NER الخاصة بمجال معين على بيانات متخصصة خاصة بالمجال، ولكن الحصول على تلك المعلومات يمكن أن يكون في حد ذاته أمرًا صعبًا.

قد تواجه نماذج NER أيضًا مشكلات أوسع نطاقًا تتعلق بالغموض (على سبيل المثال، قد يشير "Apple" إلى فاكهة أو شركة تكنولوجيا)؛ وتنوع اسم الكيان (على سبيل المثال، "USA" و"USA" و"United States" و"United States of America" تشير جميعها إلى البلد نفسه)؛ والمعلومات السياقية المحدودة (حيث لا تحتوي النصوص و/أو الجمل على سياق كافٍ لتحديد الكيانات وتصنيفها بدقة).

على الرغم من أن نماذج NER لها تحدياتها، إلا أن التطورات المستمرة تعمل باستمرار على تحسين دقتها وقابليتها للتطبيق، ومن ثَمَّ تساعد على تقليل تأثير الفجوات التكنولوجية الحالية.

مستقبل نماذج NER

على الرغم من أن نماذج NER هي مجال راسخ، إلا أنه لا يزال هناك الكثير من العمل الذي يتعين القيام به. 

بإلقاء نظرة على المستقبل، فإن أحد المجالات الواعدة هو تقنيات التعلم غير الخاضعة للإشراف لنماذج NER. ففي حين أن تقنيات التعلم الخاضعة للإشراف قد حققت أداءً جيدًا، إلا أنها تتطلب الكثير من البيانات المصنفة، والتي قد يكون من الصعب الحصول عليها. لا تتطلب تقنيات التعلم غير الخاضعة للإشراف بيانات مصنفة ويمكن أن تساعد المؤسسات في التغلب على تحديات توفر البيانات.

ومن الاتجاهات الأخرى المثيرة للاهتمام تكامل طريقة الإنصاف اللغوي العصبي مع مهام البرمجة اللغوية العصبية الأخرى. على سبيل المثال، يمكن أن تسمح نماذج NER المشتركة وربط الكيانات (التي تتضمن ربط الكيانات بمدخلاتها المقابلة في قاعدة معارف) أو NER وحل المرجع المشترك (الذي يتضمن تحديد متى يشير تعبيران أو أكثر في النص إلى الكيان نفسه) بأنظمة تفهم النص وتعالجه بشكل أفضل.

كما أن التعلم بلقطات قليلة والتعلم متعدد النماذج يعمل على توسيع قدرات تقنيات NER. ومن خلال التعلم قليل اللقطات، يتم تدريب النماذج على أداء المهام مع أمثلة قليلة فقط، والتي يمكن أن تكون مفيدة بشكل خاص عندما تكون البيانات المصنفة نادرة. ومن ناحية أخرى، يتضمن NER متعدد النماذج دمج النص مع أنواع الكيانات الأخرى. على سبيل المثال، يمكن لصورة أو جزء من الصوت توفير سياق إضافي يساعد في التعرف على الكيانات.

موارد NER معالجة اللغة الطبيعية مع Watson

تعرَّف على حالات الاستخدام المختلفة لمعالجة اللغة الطبيعية (NLP) في هذا الشرح.

تعزيز تطبيقاتك باستخدام الذكاء الاصطناعي القابل للتضمين من IBM

تفضل بزيارة موقع IBM Developer للوصول إلى المدونات والمقالات والرسائل الإخبارية وغير ذلك الكثير. كن شريكًا لشركة IBM واجعل الذكاء الاصطناعي القابل للتضمين IBM watson ضمن حلولك التجارية اليوم. تضمين IBM watson NLP Library for Embed في حلولك.

تسريع الابتكار وتوسيع نطاقه باستخدام الذكاء الاصطناعي القابل للتضمين من IBM

تساعد تجربة إنشاء الخدمة الذاتية الرقمية المشتركة (DSCE) من IBM علماء البيانات ومطوري التطبيقات ومهندسي عمليات التعلم الآلي على اكتشاف مجموعة الذكاء الاصطناعي القابلة للتضمين من IBM وتجربتها عبر مكتبات IBM Watson وواجهات برمجة تطبيقات IBM Watson وتطبيقات IBM AI.

Watson يفهم لغة أعمالك

شاهد روب توماس، المدير العام للبيانات والذكاء الاصطناعي في IBM، وهو يستضيف خبراء معالجة اللغة الطبيعية (NLP) والعملاء لعرض كيفية تحسين تقنيات معالجة اللغة الطبيعية (NLP) للأعمال عبر مختلف الصناعات.

الارتقاء بأخلاقيات الذكاء الاصطناعي إلى ما هو أبعد من الامتثال

لم تكن الاعتبارات الأخلاقية للذكاء الاصطناعي أكثر أهمية مما هي عليه اليوم.

وضع المزيد من المعرفة في متناول غير الناطقين باللغة الإنجليزية

أطلقت شركة IBM مجموعة أدوات جديدة مفتوحة المصدر، PrimeQA، لتحفيز التقدم في أنظمة الإجابة عن الأسئلة متعددة اللغات لتسهيل عثور أي شخص على المعلومات بسرعة على الويب.

حلول NER
وكلاء افتراضيون أذكياء

يوفر IBM watsonx Assistant للعملاء إجابات سريعة ومتسقة ودقيقة عبر أي تطبيق أو جهاز أو قناة.

استكشف الوكلاء الافتراضيين الأذكياء
Watson Discovery

اعثر على إجابات ومعارف مهمة من بيانات عملك باستخدام تقنية Enterprise Search المدعومة بالذكاء الاصطناعي.

استكشاف IBM Watson Discovery
IBM Cloud Pak for Data

صِل البيانات المناسبة في الوقت المناسب بالأشخاص المناسبين في أي مكان.

استكشف IBM Cloud Pak for Data
اتخِذ الخطوة التالية

يساعد IBM watsonx Assistant المنظمات على تقديم تجارب أفضل للعملاء من خلال روبوت محادثة مدعومة بالذكاء الاصطناعي والذي يفهم لغة الأعمال، ويتصل بأنظمة خدمة العملاء الحالية، ويمكن نشره في أي مكان ليتكامل مع الأمان المؤسسي وقابلية التوسع. يؤتمت Watsonx Assistant المهام المتكررة ويستخدم التعلم الآلي لحل مشكلات دعم العملاء بسرعة وكفاءة.

استكشف watsonx Assistant احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 تزدهر الشركات التي تعتمد على التحليلات والذكاء الاصطناعي في عصر الاستخدام (الرابط موجود خارج موقع ibm.com)، Deloitte Insights، بتاريخ 25 يوليو 2019

2 3 أدوات البرمجة اللغوية العصبية مفتوحة المصدر لاستخراج البيانات (الرابط موجود خارج موقع ibm.com)، InfoWorld، بتاريخ 10 يوليو 2023