Named Entity Recognition (NER)—أيضًا يُطلق عليه اسم تجميع الكيانات أو استخراج الكيانات—هو عنصر من معالجة اللغة الطبيعية (NLP) الذي يحدد فئات الكائنات المحددة مسبقًا في نص ما.
يمكن أن تشمل هذه الفئات، على سبيل المثال لا الحصر، أسماء الأفراد والمؤسسات والمواقع وتعبيرات الأوقات والكميات والرموز الطبية والقيم النقدية والنسب المئوية، من بين أمور أخرى. وبشكل أساسي، فإن Named Entity Recognition (NER) هو عملية أخذ سلسلة من النص (أي جملة أو فقرة أو مستند كامل)، وتحديد وتصنيف الكيانات التي تشير إلى كل فئة.
عندما تمت صياغة مصطلح «NER» في المؤتمر السادس لفهم الرسائل (MUC-6)، كان الهدف هو تبسيط مهام استخراج المعلومات، والتي تضمنت معالجة كميات كبيرة من النصوص غير المنظمة وتحديد المعلومات الأساسية. ومنذ ذلك الحين، توسع وتطور مفهوم NER، ويعود الفضل في الكثير من تطوره إلى التقدم في تقنيات التعلم الآلي والتعلم العميق.
وفقًا لاستطلاع أجري في عام 2019، تعتمد حوالي 64% من الشركات على البيانات المنظمة من الموارد الداخلية، ولكن أقل من 18% منها تستفيد من البيانات غير المنظمة وتعليقات وسائل التواصل الاجتماعي لتوجيه قرارات الأعمال1.
تعتمد المؤسسات التي تستخدم NER لاستخراج البيانات غير المنظمة على مجموعة من النُهج، ولكن معظمها يقع في ثلاث فئات عريضة: النُهج القائمة على القواعد، ونُهج التعلم الآلي، والنُهج الهجينة.
منذ إنشاء NER، كانت هناك بعض التطورات المنهجية المهمة، خاصة تلك التي تعتمد على التقنيات القائمة على التعلم العميق. تتضمن التكرارات الأحدث ما يلي:
الخطوة الأولى من عملية NER هي تجميع مجموعة بيانات من النص المشروح. يجب أن تحتوي مجموعة البيانات على أمثلة نصية حيث تتم تصنيف الكيانات المسماة أو تمييزها، مع الإشارة إلى أنواعها. يمكن إجراء التعليقات التوضيحية يدويًا أو باستخدام طرق تلقائية.
بمجرد جمع مجموعة البيانات، يجب تنظيف النص وتنسيقه. قد تحتاج إلى إزالة الأحرف غير الضرورية و/أو تحييد النص و/أو تقسيم النص إلى جمل أو رموز مميزة.
خلال هذه المرحلة، يتم استخراج الميزات ذات الصلة من النص المعالج مسبقًا. يمكن أن تتضمن هذه الميزات وضع علامات على جزء من الكلام (POS tagging) وتضمين الكلمات والمعلومات السياقية، من بين أمور أخرى. سيعتمد اختيار الميزات على نموذج NER المحدد الذي تستخدمه المؤسسة.
الخطوة التالية هي تدريب نموذج التعلم الآلي أو التعلم العميق باستخدام مجموعة البيانات المشروحة والميزات المستخرجة. يتعلم النموذج تحديد الأنماط والعلاقات بين الكلمات في النص، بالإضافة إلى تصنيفات الكيانات المسماة المقابلة لها.
بعد تدريب نموذج NER، يجب تقييمه لتقييم أدائه. يمكنك قياس معايير مثل الدقة والاستدعاء ودرجة F1، والتي تشير إلى مدى جودة النموذج في تحديد الكيانات المسماة وتصنيفها بشكل صحيح.
بناء على نتائج التقييم، ستقوم بتحسين النموذج من أجل تحسين أدائه. يمكن أن يشمل ذلك ضبط المعلمات الفائقة و/أو تعديل بيانات التدريب و/أو استخدام تقنيات أكثر تقدمًا (على سبيل المثال التجميع أو التكييف حسب المجال).
في هذه المرحلة، يمكنك البدء في استخدام النموذج للاستدلال على نص جديد غير مرئي. سيأخذ النموذج نص الإدخال، ويطبق خطوات المعالجة المسبقة، ويستخرج الميزات ذات الصلة، ويتنبأ في النهاية بتسميات الكيانات المسماة لكل رمز مميز أو نطاق نصي.
قد يخضع ناتج نموذج NER لخطوات المعالجة اللاحقة من أجل تحسين النتائج و/أو إضافة معلومات سياقية. قد تحتاج إلى إكمال مهام مثل ربط الكيانات، حيث يتم ربط الكيانات المسماة بقواعد المعرفة أو قواعد البيانات لمزيد من الإثراء.
أسهل طريقة لتنفيذ نظام Named Entity Recognition هي الاعتماد على واجهة برمجة التطبيقات (API). واجهات برمجة تطبيقات NER هي واجهات قائمة على الويب أو محلية تتيح الوصول إلى وظائف NER. بعض الأمثلة الشائعة لواجهات برمجة تطبيقات NER هي:
مجموعة أدوات اللغة الطبيعية (NLTK) هي منصة مفتوحة المصدر رائدة لبناء برامج Python للعمل مع بيانات اللغة البشرية.وتوفر واجهات سهلة الاستخدام لأكثر من 100 نموذج مدرب على الاستخراج2.كما تتضمن مكتبات معالجة النصوص للتصنيف، والترميز، والاشتقاق، ووضع العلامات، والتحليل، والاستدلال الدلالي.تشتمل مجموعة أدوات اللغة الطبيعية (NLTK) على مصنف خاص للتعرف على الكيانات المسماة Ne_chunk، ولكنها توفر أيضًا مغلّفًا لاستخدام علامة Stanford NER في Python.
لقد طورت جامعة ستانفورد تطبيق Stanford NER، وهو تطبيق Java الذي يُعد مكتبة استخراج الكيانات القياسية على نطاق واسع. وهو يعتمد على نموذج الحقول العشوائية المشروطة (CRF) ويوفر نماذج مدربة مسبقًا لاستخراج الكيانات المسماة.
مكتبة SpaCy هي مكتبة برمجيات مفتوحة المصدر للبرمجة اللغوية العصبية المتقدمة، وهي مكتوبة بلغة Python ومعروفة بسرعتها وسهولة استخدامها.فهي مبنية على أحدث الأبحاث وتم تصميمها لاستخدامها مع المنتجات الحقيقية.كما أن لديها نظامًا إحصائيًا متقدمًا يسمح للمستخدمين ببناء مستخلصات NER مخصصة.
مع استمرار تطور التقنيات، ستصبح أنظمة NER أكثر انتشارًا، ما يساعد المؤسسات على فهم البيانات التي تواجهها كل يوم. وحتى الآن، أثبتت فعاليتها في قطاعات متعددة، بدايةً من الرعاية الصحية والشؤون المالية وحتى خدمة العملاء والأمن السيبراني.
بعض حالات الاستخدام الأكثر تأثيرًا:
عملية NER هي الخطوة الأولى الحاسمة في استخراج معلومات مفيدة ومنظمة من قواعد بيانات كبيرة غير منظمة. حيث تستخدم محركات البحث عملية NER لتحسين ملاءمة نتائج البحث ودقتها.
يستخدم مجمعو الأخبار عملية NER لتصنيف المقالات والقصص بناء على الكيانات المسماة التي تحتوي عليها، ما يتيح طريقة أكثر تنظيمًا وفعالية لتقديم الأخبار للجماهير. على سبيل المثال، تعمل NER لتطبيقات الأخبار على أتمتة عملية التصنيف، وجمع القصص الإخبارية المتشابهة معًا وتوفير رؤية أكثر شمولاً لأحداث إخبارية بعينها.
مع انتشار منصات التواصل الاجتماعي، أصبحت كمية البيانات النصية المتاحة للتحليل هائلة جدًا. وتلعب NER دورًا مهمًا في تحليل وسائل التواصل الاجتماعي، وتحديد الكيانات الرئيسية في المنشورات والتعليقات لفهم الاتجاهات والآراء العامة حول الموضوعات المختلفة (خاصة الآراء المتعلقة بالعلامات التجارية والمنتجات). يمكن أن تساعد هذه المعلومات الشركات على إجراء تحليلات للمشاعر وتطوير إستراتيجيات التسويق وصياغة استجابات خدمة العملاء وتسريع جهود تطوير المنتجات.
يستخدم المساعدون الافتراضيون وروبوتات المحادثة المدعومة بالذكاء الاصطناعي التوليدي عملية NER لفهم طلبات المستخدمين واستفسارات دعم العملاء بدقة.فمن خلال تحديد الكيانات المهمة في استعلامات المستخدمين، يمكن لهذه الأدوات التي تعمل بنظام الذكاء الاصطناعي توفير استجابات دقيقة ومحددة السياق.على سبيل المثال، في الاستعلام "البحث عن مطاعم مأكولات بحرية بالقرب من الحديقة العامة"، تساعد عملية NER المساعد على فهم "مأكولات بحرية" على أنها الطعام، و"مطاعم" على أنها نوع المنشأة، و"الحديقة العامة" على أنها الموقع.
في مجال الأمن السيبراني، تساعد عملية NER الشركات على تحديد التهديدات المحتملة وحالات الخلل في سجلات الشبكات والبيانات الأخرى المتعلقة بالأمن. على سبيل المثال، يمكنها تحديد عناوين IP وعناوين URL وأسماء المستخدمين وأسماء الملفات المريبة في سجلات أمان الشبكة. وعلى هذا النحو، يمكن أن تسهل عملية NER التحقيقات الأكثر شمولاً في الحوادث الأمنية وتحسن الأمن العام للشبكة.
لقد قطعت نماذج NER شوطًا طويلاً منذ إنشائها، حيث دمجت التقنيات المبتكرة وتوسعت بغزارة في فائدتها على طول الطريق. ومع ذلك، هناك بعض التحديات الجديرة بالملاحظة التي يجب مراعاتها عند تقييم تقنيات NER.
على الرغم من أن نماذج NER قد أحرزت الكثير من التقدم للغات مثل الإنجليزية، فهي لا تتمتع بمستوى الدقة نفسه للعديد من اللغات الأخرى.وغالبًا ما يكون هذا بسبب نقص البيانات المصنفة بهذه اللغات. تُعد نماذج NER عبر اللغات، والتي تتضمن نقل المعرفة من لغة إلى أخرى، مجالاً نشطًا للبحث قد يساعد في سد الفجوة اللغوية في NET.
في بعض الأحيان، يمكن أن تتداخل الكيانات داخل كيانات أخرى، وقد يكون التعرف على هذه الكيانات المتداخلة أمرًا صعبًا. على سبيل المثال، في الجملة "تم تأسيس جامعة ولاية بنسلفانيا، حديقة الجامعة، في عام 1855"، نجد أن كلاً من "جامعة ولاية بنسلفانيا" و"جامعة ولاية بنسلفانيا، حديقة الجامعة" كيانان صالحان.
علاوة على ذلك، في حين أن نماذج NER العامة يمكن أن تحدد كيانات مشتركة مثل الأسماء والمواقع، إلا أنها قد تواجه صعوبات مع كيانات خاصة بمجال معين. على سبيل المثال، في المجال الطبي، قد يكون تحديد مصطلحات معقدة مثل أسماء الأمراض أو أسماء الأدوية أمرًا صعبًا. ومن ثَمَّ يمكن تدريب نماذج NER الخاصة بمجال معين على بيانات متخصصة خاصة بالمجال، ولكن الحصول على تلك المعلومات يمكن أن يكون في حد ذاته أمرًا صعبًا.
قد تواجه نماذج NER أيضًا مشكلات أوسع نطاقًا تتعلق بالغموض (على سبيل المثال، قد يشير "Apple" إلى فاكهة أو شركة تكنولوجيا)؛ وتنوع اسم الكيان (على سبيل المثال، "USA" و"USA" و"United States" و"United States of America" تشير جميعها إلى البلد نفسه)؛ والمعلومات السياقية المحدودة (حيث لا تحتوي النصوص و/أو الجمل على سياق كافٍ لتحديد الكيانات وتصنيفها بدقة).
على الرغم من أن نماذج NER لها تحدياتها، إلا أن التطورات المستمرة تعمل باستمرار على تحسين دقتها وقابليتها للتطبيق، ومن ثَمَّ تساعد على تقليل تأثير الفجوات التكنولوجية الحالية.
على الرغم من أن نماذج NER هي مجال راسخ، إلا أنه لا يزال هناك الكثير من العمل الذي يتعين القيام به.
بإلقاء نظرة على المستقبل، فإن أحد المجالات الواعدة هو تقنيات التعلم غير الخاضعة للإشراف لنماذج NER. ففي حين أن تقنيات التعلم الخاضعة للإشراف قد حققت أداءً جيدًا، إلا أنها تتطلب الكثير من البيانات المصنفة، والتي قد يكون من الصعب الحصول عليها. لا تتطلب تقنيات التعلم غير الخاضعة للإشراف بيانات مصنفة ويمكن أن تساعد المؤسسات في التغلب على تحديات توافر البيانات.
ومن الاتجاهات الأخرى المثيرة للاهتمام تكامل طريقة الإنصاف اللغوي العصبي مع مهام البرمجة اللغوية العصبية الأخرى. على سبيل المثال، يمكن أن تسمح نماذج NER المشتركة وربط الكيانات (التي تتضمن ربط الكيانات بمدخلاتها المقابلة في قاعدة معارف) أو NER وحل المرجع المشترك (الذي يتضمن تحديد متى يشير تعبيران أو أكثر في النص إلى الكيان نفسه) بأنظمة تفهم النص وتعالجه بشكل أفضل.
كما أن التعلم بأمثلة قليلة والتعلم متعدد النماذج يعمل على توسيع قدرات تقنيات NER. ومن خلال التعلم قليل الأمثلة، يتم تدريب النماذج على أداء المهام مع أمثلة قليلة فقط، والتي يمكن أن تكون مفيدة بشكل خاص عندما تكون البيانات المصنفة نادرة. ومن ناحية أخرى، يتضمن NER متعدد النماذج دمج النص مع أنواع الكيانات الأخرى. على سبيل المثال، يمكن لصورة أو جزء من الصوت توفير سياق إضافي يساعد في التعرف على الكيانات.
يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.
تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
IBM® ™Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوقة وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية وضوابط الحماية.
اكتشف كيف يمكن أن تساعدك معالجة اللغة الطبيعية على التحدث بشكل أكثر طبيعية مع أجهزة الكمبيوتر.
لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
استكشف الموقع الإلكتروني لمطوري IBM للوصول إلى المدونات والمقالات والنشرات الإخبارية وتعرف على المزيد عن الذكاء الاصطناعي القابل للتضمين من IBM.
1 Analytics and AI-driven enterprises thrive in the Age of With, Deloitte Insights, 25 July 2019
2 3 open source NLP tools for data extraction, InfoWorld, 10 July 2023