الصفحة الرئيسية
الموضوعات
Named Entity Recognition
تطبيق Named Entity Recognition (NER) - يُطلق عليه أيضًا اسم تقطيع الكيانات أو استخراج الكيانات - هو أحد مكونات معالجة اللغة الطبيعية (NLP) الذي يحدد فئات الكائنات المحددة مسبقًا في نص ما.
يمكن أن تشمل هذه الفئات، على سبيل المثال لا الحصر، أسماء الأفراد والمنظمات والمواقع وتعبيرات الأوقات والكميات والرموز الطبية والقيم النقدية والنسب المئوية، من بين أمور أخرى. وبشكل أساسي، فإن تطبيق Named Entity Recognition (NER) هو عملية أخذ سلسلة من النص (أي جملة أو فقرة أو مستند كامل)، وتحديد وتصنيف الكيانات التي تشير إلى كل فئة.
عندما تمت صياغة مصطلح "NER" في مؤتمر فهم الرسائل السادس (MUC-6) ، كان الهدف هو تبسيط مهام استخراج المعلومات، والتي تضمنت معالجة كميات هائلة من النصوص غير المنظمة وتحديد المعلومات الأساسية. ومنذ ذلك الحين، توسع مفهوم NER وتطور، ويرجع ذلك في الكثير من تطوره إلى التقدم في تقنيات التعلم الآلي والتعلم العميق.
تعرَّف على المعوقات التي تَحُول دون اعتماد الذكاء الاصطناعي، لا سيما عدم تطبيق حوكمة الذكاء الاصطناعي، وعدم إيجاد حلول لإدارة المخاطر.
وفقًا لاستطلاع أجري في عام 2019، تعتمد حوالي 64% من الشركات على البيانات المنظمة من الموارد الداخلية، ولكن أقل من 18% منها تستفيد من البيانات غير المنظمة وتعليقات وسائل التواصل الاجتماعي لإبلاغ قرارات الأعمال1.
تعتمد المؤسسات التي تستخدم NER لاستخراج البيانات غير المهيكلة على مجموعة من النُهج، ولكن معظمها يقع في ثلاث فئات عريضة: النُهج القائمة على القواعد، ونُهج التعلم الآلي، والنُهج الهجينة.
منذ إنشاء NER، كانت هناك بعض التطورات المنهجية المهمة، خاصة تلك التي تعتمد على التقنيات القائمة على التعلم العميق. تتضمن التكرارات الأحدث ما يلي:
الخطوة الأولى من عملية NER هي تجميع مجموعة بيانات من النص المشروح. يجب أن تحتوي مجموعة البيانات على أمثلة نصية حيث تتم تصنيف الكيانات المسماة أو تمييزها، مع الإشارة إلى أنواعها. يمكن إجراء التعليقات التوضيحية يدويًا أو باستخدام طرق تلقائية.
بمجرد جمع مجموعة البيانات، يجب تنظيف النص وتنسيقه. قد تحتاج إلى إزالة الأحرف غير الضرورية و/أو تحييد النص و/أو تقسيم النص إلى جمل أو رموز مميزة.
خلال هذه المرحلة، يتم استخراج الميزات ذات الصلة من النص المعالج مسبقًا. يمكن أن تتضمن هذه الميزات وضع علامات على جزء من الكلام (وضع علامات على نقاط البيع) وتضمين الكلمات والمعلومات السياقية، من بين أمور أخرى. سيعتمد اختيار الميزات على نموذج NER المحدد الذي تستخدمه المؤسسة.
الخطوة التالية هي تدريب نموذج التعلم الآلي أو التعلم العميق باستخدام مجموعة البيانات المشروحة والميزات المستخرجة. يتعلم النموذج تحديد الأنماط والعلاقات بين الكلمات في النص، بالإضافة إلى تصنيفات الكيانات المسماة المقابلة لها.
بعد تدريب نموذج NER، يجب تقييمه لتقييم أدائه. يمكنك قياس معايير مثل الدقة والاستدعاء ودرجة F1، والتي تشير إلى مدى جودة النموذج في تحديد الكيانات المسماة وتصنيفها بشكل صحيح.
بناء على نتائج التقييم، ستقوم بتحسين النموذج من أجل تحسين أدائه. يمكن أن يشمل ذلك ضبط المعلمات الفائقة و/أو تعديل بيانات التدريب و/أو استخدام تقنيات أكثر تقدمًا (على سبيل المثال التجميع أو التكييف حسب المجال).
في هذه المرحلة، يمكنك البدء في استخدام النموذج للاستدلال على نص جديد غير مرئي. سيأخذ النموذج نص الإدخال، ويطبق خطوات المعالجة المسبقة، ويستخرج الميزات ذات الصلة، ويتنبأ في النهاية بتسميات الكيانات المسماة لكل رمز مميز أو نطاق نصي.
قد يخضع ناتج نموذج NER لخطوات المعالجة اللاحقة من أجل تحسين النتائج و/أو إضافة معلومات سياقية. قد تحتاج إلى إكمال مهام مثل ربط الكيانات، حيث يتم ربط الكيانات المسماة بقواعد المعرفة أو قواعد البيانات لمزيد من الإثراء.
أسهل طريقة لتنفيذ نظام Named Entity Recognition هي الاعتماد على واجهة برمجة التطبيقات (API). واجهات برمجة تطبيقات NER هي واجهات قائمة على الويب أو محلية تتيح الوصول إلى وظائف NER. فيما يلي بعض الأمثلة الشائعة لواجهات برمجة تطبيقات NER:
مجموعة أدوات اللغة الطبيعية (NLTK) هي منصة مفتوحة المصدر رائدة لبناء برامج Python للعمل مع بيانات اللغة البشرية. وتوفر واجهات سهلة الاستخدام لأكثر من 100 نموذج مدرب على الاستخراج2. كما تتضمن مكتبات معالجة النصوص للتصنيف، والترميز، والاشتقاق، ووضع العلامات، والتحليل، والاستدلال الدلالي. تشتمل مجموعة أدوات اللغة الطبيعية (NLTK) على مصنف خاص للتعرف على الكيانات المسماة Ne_chunk، ولكنها توفر أيضًا مغلّفًا لاستخدام علامة Stanford NER في Python.
لقد طورت جامعة ستانفورد تطبيق Stanford NER، وهو تطبيق Java الذي يُعد مكتبة استخراج الكيانات القياسية على نطاق واسع. وهو يعتمد على نموذج الحقول العشوائية المشروطة (CRF) ويوفر نماذج مدربة مسبقًا لاستخراج الكيانات المسماة.
مكتبة SpaCy هي مكتبة برمجيات مفتوحة المصدر للبرمجة اللغوية العصبية المتقدمة، وهي مكتوبة بلغة Python ومعروفة بسرعتها وسهولة استخدامها. فهي مبنية على أحدث الأبحاث وتم تصميمها لاستخدامها مع المنتجات الحقيقية. كما أن لديها نظامًا إحصائيًا متقدمًا يسمح للمستخدمين ببناء مستخلصات NER مخصصة.
مع استمرار تطور التقنيات، ستصبح أنظمة NER أكثر انتشارًا، ما يساعد المؤسسات على فهم البيانات التي تواجهها كل يوم. وحتى الآن، أثبتت فعاليتها في قطاعات متعددة، بدايةً من الرعاية الصحية والشؤون المالية وحتى خدمة العملاء والأمن الإلكتروني.
بعض حالات الاستخدام الأكثر تأثيرًا:
عملية NER هي الخطوة الأولى الحاسمة في استخراج معلومات مفيدة ومنظمة من قواعد بيانات كبيرة غير منظمة. حيث تستخدم محركات البحث عملية NER لتحسين ملاءمة نتائج البحث ودقتها.
يستخدم مجمعو الأخبار عملية NER لتصنيف المقالات والقصص بناء على الكيانات المسماة التي تحتوي عليها، ما يتيح طريقة أكثر تنظيمًا وفعالية لتقديم الأخبار للجماهير. على سبيل المثال، تعمل NER لتطبيقات الأخبار على أتمتة عملية التصنيف، وجمع القصص الإخبارية المتشابهة معًا وتوفير رؤية أكثر شمولاً لأحداث إخبارية بعينها.
مع انتشار منصات التواصل الاجتماعي، أصبحت كمية البيانات النصية المتاحة للتحليل هائلة جدًا. وتؤدي عملية NER دورًا مهمًا في تحليل وسائل التواصل الاجتماعي، وتحديد الكيانات الرئيسية في المنشورات والتعليقات لفهم الاتجاهات والآراء العامة حول الموضوعات المختلفة (خاصة الآراء المتعلقة بالعلامات التجارية والمنتجات). يمكن أن تساعد هذه المعلومات الشركات على إجراء تحليلات للمشاعر وتطوير إستراتيجيات التسويق وصياغة استجابات خدمة العملاء وتسريع جهود تطوير المنتجات.
يستخدم المساعدون الافتراضيون وروبوتات المحادثة المدعومة بالذكاء الاصطناعي التوليدي عملية NER لفهم طلبات المستخدمين واستفسارات دعم العملاء بدقة. فمن خلال تحديد الكيانات المهمة في استعلامات المستخدمين، يمكن لهذه الأدوات التي تعمل بنظام الذكاء الاصطناعي توفير استجابات دقيقة ومحددة السياق. على سبيل المثال، في الاستعلام "البحث عن مطاعم مأكولات بحرية بالقرب من الحديقة العامة"، تساعد عملية NER المساعد على فهم "مأكولات بحرية" على أنها الطعام، و"مطاعم" على أنها نوع المنشأة، و"الحديقة العامة" على أنها الموقع.
في مجال الأمن الإلكتروني، تساعد عملية NER الشركات على تحديد التهديدات المحتملة وحالات الخلل في سجلات الشبكات والبيانات الأخرى المتعلقة بالأمن. على سبيل المثال، يمكنها تحديد عناوين IP وعناوين URL وأسماء المستخدمين وأسماء الملفات المريبة في سجلات أمان الشبكة. وعلى هذا النحو، يمكن أن تسهل عملية NER التحقيقات الأكثر شمولاً في الحوادث الأمنية وتحسن الأمن العام للشبكة.
لقد قطعت نماذج NER شوطًا طويلاً منذ إنشائها، حيث دمجت التقنيات المبتكرة وتوسعت بغزارة في فائدتها على طول الطريق. ومع ذلك، هناك بعض التحديات الجديرة بالملاحظة التي يجب مراعاتها عند تقييم تقنيات NER.
على الرغم من أن نماذج NER قد أحرزت الكثير من التقدم للغات مثل الإنجليزية، فهي لا تتمتع بمستوى الدقة نفسه للعديد من اللغات الأخرى. وغالبًا ما يكون هذا بسبب نقص البيانات المصنفة بهذه اللغات. تُعد نماذج NER عبر اللغات، والتي تتضمن نقل المعرفة من لغة إلى أخرى، مجالاً نشطًا للبحث قد يساعد في سد الفجوة اللغوية في NET.
في بعض الأحيان، يمكن أيضًا أن تتداخل الكيانات داخل كيانات أخرى، وقد يكون التعرف على هذه الكيانات المتداخلة أمرًا صعبًا. على سبيل المثال، في الجملة "تم تأسيس جامعة ولاية بنسلفانيا، حديقة الجامعة، في عام 1855"، نجد أن كلاً من "جامعة ولاية بنسلفانيا" و"جامعة ولاية بنسلفانيا، حديقة الجامعة" كيانان صالحان.
علاوة على ذلك، في حين أن نماذج NER العامة يمكن أن تحدد كيانات مشتركة مثل الأسماء والمواقع، إلا أنها قد تواجه صعوبات مع كيانات خاصة بمجال معين. على سبيل المثال، في المجال الطبي، قد يكون تحديد مصطلحات معقدة مثل أسماء الأمراض أو أسماء الأدوية أمرًا صعبًا. ومن ثَمَّ يمكن تدريب نماذج NER الخاصة بمجال معين على بيانات متخصصة خاصة بالمجال، ولكن الحصول على تلك المعلومات يمكن أن يكون في حد ذاته أمرًا صعبًا.
قد تواجه نماذج NER أيضًا مشكلات أوسع نطاقًا تتعلق بالغموض (على سبيل المثال، قد يشير "Apple" إلى فاكهة أو شركة تكنولوجيا)؛ وتنوع اسم الكيان (على سبيل المثال، "USA" و"USA" و"United States" و"United States of America" تشير جميعها إلى البلد نفسه)؛ والمعلومات السياقية المحدودة (حيث لا تحتوي النصوص و/أو الجمل على سياق كافٍ لتحديد الكيانات وتصنيفها بدقة).
على الرغم من أن نماذج NER لها تحدياتها، إلا أن التطورات المستمرة تعمل باستمرار على تحسين دقتها وقابليتها للتطبيق، ومن ثَمَّ تساعد على تقليل تأثير الفجوات التكنولوجية الحالية.
على الرغم من أن نماذج NER هي مجال راسخ، إلا أنه لا يزال هناك الكثير من العمل الذي يتعين القيام به.
بإلقاء نظرة على المستقبل، فإن أحد المجالات الواعدة هو تقنيات التعلم غير الخاضعة للإشراف لنماذج NER. ففي حين أن تقنيات التعلم الخاضعة للإشراف قد حققت أداءً جيدًا، إلا أنها تتطلب الكثير من البيانات المصنفة، والتي قد يكون من الصعب الحصول عليها. لا تتطلب تقنيات التعلم غير الخاضعة للإشراف بيانات مصنفة ويمكن أن تساعد المؤسسات في التغلب على تحديات توفر البيانات.
ومن الاتجاهات الأخرى المثيرة للاهتمام تكامل طريقة الإنصاف اللغوي العصبي مع مهام البرمجة اللغوية العصبية الأخرى. على سبيل المثال، يمكن أن تسمح نماذج NER المشتركة وربط الكيانات (التي تتضمن ربط الكيانات بمدخلاتها المقابلة في قاعدة معارف) أو NER وحل المرجع المشترك (الذي يتضمن تحديد متى يشير تعبيران أو أكثر في النص إلى الكيان نفسه) بأنظمة تفهم النص وتعالجه بشكل أفضل.
كما أن التعلم بلقطات قليلة والتعلم متعدد النماذج يعمل على توسيع قدرات تقنيات NER. ومن خلال التعلم قليل اللقطات، يتم تدريب النماذج على أداء المهام مع أمثلة قليلة فقط، والتي يمكن أن تكون مفيدة بشكل خاص عندما تكون البيانات المصنفة نادرة. ومن ناحية أخرى، يتضمن NER متعدد النماذج دمج النص مع أنواع الكيانات الأخرى. على سبيل المثال، يمكن لصورة أو جزء من الصوت توفير سياق إضافي يساعد في التعرف على الكيانات.
تعرَّف على حالات الاستخدام المختلفة لمعالجة اللغة الطبيعية (NLP) في هذا الشرح.
تفضل بزيارة موقع IBM Developer للوصول إلى المدونات والمقالات والرسائل الإخبارية وغير ذلك الكثير. كن شريكًا لشركة IBM واجعل الذكاء الاصطناعي القابل للتضمين IBM watson ضمن حلولك التجارية اليوم. تضمين IBM watson NLP Library for Embed في حلولك.
تساعد تجربة إنشاء الخدمة الذاتية الرقمية المشتركة (DSCE) من IBM علماء البيانات ومطوري التطبيقات ومهندسي عمليات التعلم الآلي على اكتشاف مجموعة الذكاء الاصطناعي القابلة للتضمين من IBM وتجربتها عبر مكتبات IBM Watson وواجهات برمجة تطبيقات IBM Watson وتطبيقات IBM AI.
شاهد روب توماس، المدير العام للبيانات والذكاء الاصطناعي في IBM، وهو يستضيف خبراء معالجة اللغة الطبيعية (NLP) والعملاء لعرض كيفية تحسين تقنيات معالجة اللغة الطبيعية (NLP) للأعمال عبر مختلف الصناعات.
لم تكن الاعتبارات الأخلاقية للذكاء الاصطناعي أكثر أهمية مما هي عليه اليوم.
أطلقت شركة IBM مجموعة أدوات جديدة مفتوحة المصدر، PrimeQA، لتحفيز التقدم في أنظمة الإجابة عن الأسئلة متعددة اللغات لتسهيل عثور أي شخص على المعلومات بسرعة على الويب.
يوفر IBM watsonx Assistant للعملاء إجابات سريعة ومتسقة ودقيقة عبر أي تطبيق أو جهاز أو قناة.
اعثر على إجابات ومعارف مهمة من بيانات عملك باستخدام تقنية Enterprise Search المدعومة بالذكاء الاصطناعي.
صِل البيانات المناسبة في الوقت المناسب بالأشخاص المناسبين في أي مكان.
1 تزدهر الشركات التي تعتمد على التحليلات والذكاء الاصطناعي في عصر الاستخدام (الرابط موجود خارج موقع ibm.com)، Deloitte Insights، بتاريخ 25 يوليو 2019
2 3 أدوات البرمجة اللغوية العصبية مفتوحة المصدر لاستخراج البيانات (الرابط موجود خارج موقع ibm.com)، InfoWorld، بتاريخ 10 يوليو 2023