Accueil
Thèmes
Reconnaissance des entités nommées
La Named Entity Recognition (NER), également appelée segmentation d’entités ou extraction d’entités, est un composant du traitement automatique du langage naturel (NLP) qui identifie des catégories prédéfinies d’objets dans un corps de texte.
Ces catégories incluent, entre autres, les noms d’individus, d’organisations et de lieux, les expressions temporelles, les quantités, les codes médicaux, les valeurs monétaires et les pourcentages. Concrètement, la reconnaissance des entités nommées désigne le processus qui consiste à examiner une chaîne de texte (c’est-à-dire une phrase, un paragraphe ou un document entier) pour identifier et classer les entités catégorisables.
Lorsque le terme « NER » a été inventé lors de la Sixth Message Understanding Conference (MUC-6), l’objectif était de rationaliser les tâches d’extraction d’informations, qui nécessitaient le traitement de grandes quantités de texte non structuré et l’identification des informations clés. Depuis, la NER s’est développée et a évolué, en grande partie grâce aux progrès des techniques de machine learning et d’apprentissage profond.
Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.
Selon une enquête menée en 2019, près de 64 % des entreprises s’appuient sur des données structurées provenant de ressources internes, mais moins de 18 % exploitent les données non structurées et les commentaires sur les réseaux sociaux pour éclairer les décisions métier1.
Les organisations qui utilisent la NER pour l’extraction de données non structurées s’appuient sur tout un éventail d’approches, mais la plupart se répartissent en trois grandes catégories : les approches basées sur des règles, les approches de machine learning et les approches hybrides.
Depuis les débuts de la NER, d'importances avancées méthodologiques ont été réalisées, en particulier celles reposant sur des techniques basées sur l’apprentissage profond. Les nouvelles itérations incluent les éléments suivants :
La première étape de la NER consiste à agréger un jeu de données de texte annoté. Ce jeu de données doit contenir des exemples de texte où les entités nommées sont étiquetées ou marquées, indiquant leur type. Les annotations peuvent être effectuées manuellement ou à l’aide de méthodes automatisées.
Une fois le jeu de données collecté, le texte doit être nettoyé et formaté. Il faudra peut-être supprimer des caractères inutiles, normaliser le texte et/ou le diviser en phrases ou en jetons.
À ce stade, les caractéristiques pertinentes sont extraites du texte prétraité. Il peut s’agir du marquage des parties du discours (Part of speech, POS), des plongements lexicaux ou des informations contextuelles, par exemple. Le choix des caractéristiques dépendra du modèle de NER choisi par l’organisation.
L’étape suivante consiste à entraîner un modèle de machine learning ou d’apprentissage profond à l’aide du jeu de données annoté et des caractéristiques extraites. Le modèle apprend à repérer les formes et les relations entre les mots du texte, ainsi que les étiquettes d’entités nommées correspondantes.
Une fois celui-ci entraîné, les performances du modèle NER doivent être évaluées. Vous pouvez alors mesurer des paramètres tels que la précision, le rappel et le F1-score, qui indiquent dans quelle mesure le modèle identifie et classe correctement les entités nommées.
Sur la base des résultats de l’évaluation, vous affinerez le modèle pour améliorer ses performances. Cela peut inclure l’ajustement des hyperparamètres, la modification des données d’entraînement et/ou l’utilisation de techniques plus avancées (par exemple, l’assemblage ou l’adaptation de domaine).
À ce stade, vous pouvez commencer à utiliser le modèle pour effectuer l’inférence sur un texte inconnu. Le modèle prend en charge le texte, applique les étapes de prétraitement, extrait les caractéristiques pertinentes et prédit les étiquettes d’entités nommées pour chaque jeton ou étendue de texte.
Des étapes de post-traitement peuvent être nécessaires pour affiner les résultats produits par le modèle et/ou ajouter des informations contextuelles. Ces tâches peuvent inclure la liaison d’entités, qui consiste à relier les entités nommées à des bases de connaissances ou à des bases de données à des fins d’enrichissement.
Le moyen le plus simple de mettre en œuvre un système de reconnaissance d’entités nommées est de s’appuyer sur une interface de programmation des applications (API). Les API NER sont des interfaces Web ou locales qui donnent accès aux fonctionnalités de NER. Voici quelques exemples d’API NER couramment utilisées :
NLTK est une plateforme open source de premier plan pour la création de programmes Python qui permet de travailler avec des données en langage humain. Cet outil fournit des interfaces faciles à utiliser pour plus de 100 modèles d’extraction entraînés2. NLTK intègre aussi des bibliothèques de traitement de texte pour la classification, la tokenisation, la racinisation, l’étiquetage, l’analyse et le raisonnement sémantique. NLKT possède son propre classificateur pour la reconnaissance des entités nommées, appelé ne_chunk, mais fournit également un encapsuleur qui permet d’utiliser l’étiqueteur Stanford NER en langage Python.
Développé par l’Université de Stanford, Stanford NER est une implémentation Java considérée comme la bibliothèque standard en matière d’extraction d’entités. Cet outil s’appuie sur les CRF et fournit des modèles pré-entraînés pour l’extraction d’entités nommées.
Écrite en Python et réputée pour sa rapidité et sa facilité d’utilisation, SpaCy est une bibliothèque logicielle open source pour le NLP avancé. Elle s'appuie sur les toutes dernières recherches et a été conçue pour être utilisé avec de vrais produits. Elle dispose également d’un système statistique perfectionné qui permet aux utilisateurs de créer des extracteurs NER personnalisés.
À mesure que les technologies continuent d’évoluer, les systèmes NER deviendront de plus en plus omniprésents et aideront les organisations à donner un sens aux données qu’elles rencontrent au quotidien. Cette technologie a déjà prouvé son utilité dans de nombreux secteurs, de la santé et la finance au service client en passant par la cybersécurité.
Voici quelques-uns des cas d'utilisation ayant le plus d'impact :
La NER est une première étape cruciale pour l’extraction d’informations utiles et structurées à partir de grandes bases de données non structurées. Les moteurs de recherche utilisent la NER pour améliorer la pertinence et la précision de leurs résultats de recherche.
Les agrégateurs d’actualités utilisent la NER pour classer les articles en fonction des entités nommées qu’ils contiennent, pour présenter les actualités de manière plus organisée et plus efficace. La NER permet ainsi d’automatiser le processus de classification, en regroupant des articles similaires et en fournissant une vue plus complète des événements associés.
Avec la prolifération des plateformes de médias sociaux, la quantité de données textuelles à analyser devient écrasante. La NER joue alors un rôle important, en identifiant les entités clés dans les publications et les commentaires pour comprendre les tendances et les opinions du public sur différents sujets (en particulier les opinions sur les marques et les produits). Ces informations aident les entreprises à analyser les sentiments, à élaborer des stratégies marketing, à rédiger des réponses dans le cadre du service client et à accélérer le développement des produits.
Les assistants virtuels et les chatbots basés sur l’IA générative utilisent la NER pour comprendre de manière précise les requêtes des utilisateurs et les demandes de support client. En identifiant les entités critiques dans les requêtes des utilisateurs, ces outils alimentés par l’IA peuvent fournir des réponses précises et adaptées au contexte. Par exemple, dans la requête « Trouver des restaurants italiens près du bois de Boulogne », la NER aide l’assistant à comprendre « italiens » comme un type de cuisine, « restaurants » comme un type d’établissement et « bois de Boulogne » comme un lieu.
Dans le domaine de la cybersécurité, la NER aide les entreprises à repérer les menaces potentielles et les anomalies dans les journaux de réseau et d’autres données liées à la sécurité. Par exemple, elle peut repérer les adresses IP, les URL, les noms d’utilisateur et les noms de fichier suspects dans les journaux de sécurité du réseau. La NER peut ainsi permettre d'approfondir les enquêtes sur les incidents de sécurité et améliorer la sécurité globale du réseau.
La NER a fait du chemin depuis sa création. Elle intègre désormais des technologies innovantes et son utilisation s’est considérablement étendue. Cependant, il existe quelques défis notables à prendre en compte lors de l’évaluation de ces technologies.
Bien que de nombreux progrès aient été réalisés pour des langues comme l’anglais, la NER n’offre pas le même niveau de précision pour toutes les langues. Cela est principalement dû au manque de données étiquetées dans certaines langues. La NER multilingue, qui implique le transfert de connaissances d’une langue à une autre, est un domaine de recherche actif qui pourrait contribuer à combler ce fossé.
Certaines entités peuvent aussi être imbriquées dans d’autres, ce qui complique leur analyse. Par exemple, dans la phrase « Le campus Pierre-et-Marie-Curie de l’université de la Sorbonne été inauguré en 1959 », « université de la Sorbonne » et « Le campus Pierre-et-Marie-Curie de l’université de la Sorbonne » sont deux entités valides.
En outre, si les modèles de NER classiques sont capables d’identifier des entités courantes telles que les noms et les lieux, ils peuvent rencontrer des difficultés avec les entités propres à un domaine spécifique. Par exemple, dans le domaine médical, il peut être difficile d’identifier des termes complexes tels que des noms de maladies ou de médicaments. Des modèles de NER spécifiques peuvent être entraînés sur des données spécialisées, mais encore faut-il parvenir à rassembler ces informations.
Les modèles de NER peuvent également rencontrer des difficultés en cas d’ambiguïté (par exemple, « Apple » pourrait faire référence à un fruit - pomme, en anglais - ou à l’entreprise technologique), de variantes d’un nom d’entité (par exemple, « USA », « U.S.A. », « États-Unis » et « États-Unis d’Amérique » font tous référence au même pays) ou d’informations contextuelles limitées (car les textes et/ou les phrases ne contiennent pas suffisamment de contexte pour identifier et catégoriser les entités avec précision).
Bien que la NER présente certains défis, les avancées continues améliorent constamment sa précision et son applicabilité, et contribuent donc à minimiser l’impact des lacunes technologiques existantes.
Même si la NER est un champ bien établi, il reste encore beaucoup de travail à faire.
L'un des domaines qui s'annonce prometteur est celui des techniques d'apprentissage non supervisé pour la NER. Même si les techniques d’apprentissage supervisé fonctionnent bien, elles nécessitent une grande quantité de données étiquetées, qui peuvent être difficiles à obtenir. Les techniques d'apprentissage non supervisé ne nécessitent pas de données étiquetées et peuvent aider les organisations à surmonter les défis liés à la disponibilité des données.
Une autre perspective intéressante est l’intégration de la NER à d’autres tâches de NLP. Par exemple, des modèles conjoints pour la NER et la liaison d’entités (qui consiste à relier des entités aux entrées correspondantes dans une base de connaissances) ,ou la NER et la résolution de coréférences (qui implique de déterminer quand deux ou plusieurs expressions d’un texte font référence à la même entité), pourraient donner naissance à des systèmes capables de mieux comprendre les textes et ainsi de pousser plus loin leur analyse.
L’apprentissage few-shot et la NER multimodale développent également les capacités des technologies NER. Avec l’apprentissage few-shot, les modèles sont entraînés pour effectuer des tâches avec seulement quelques exemples, ce qui peut s’avérer particulièrement utile lorsque les données étiquetées sont rares. La NER multimodale, quant à elle, suppose l’intégration de texte avec d’autres types d’entités. Une image ou un fichier audio, par exemple, peuvent fournir du contexte supplémentaire permettant de reconnaître des entités.
Découvrez les différents cas d’utilisation du NLP dans ce document explicatif sur le NLP.
Visitez le site Web IBM Developer pour accéder à des blogs, des articles, des bulletins d’information et plus encore. Devenez partenaire IBM et incorporez l’IA intégrable IBM Watson dans vos solutions commerciales dès aujourd’hui. IBM Watson NLP Library for Embed dans vos solutions.
L’IBM Digital Self-Serve Co-Create Experience (DSCE) aide les data scientists, les développeurs d’applications et les ingénieurs ML-Ops à découvrir et à essayer le portefeuille d’IA intégrable d’IBM dans les bibliothèques IBM Watson, les API IBM Watson et les applications d’IA IBM.
Rob Thomas, directeur général des données et de l’IA chez IBM, accueille des experts en traitement automatique du langage naturel et des clients pour leur montrer comment les technologies du traitement automatique du langage naturel optimisent les activités d’entreprises de tous secteurs.
Les considérations éthiques relatives à l’IA n’ont jamais été aussi cruciales qu’aujourd’hui.
IBM a lancé une nouvelle boîte à outils open source, PrimeQA, pour faire progresser les systèmes de questions-réponses multilingues afin de permettre à quiconque de trouver plus facilement et rapidement des informations sur le Web.
IBM watsonx Assistant fournit aux clients des réponses rapides, cohérentes et précises sur n’importe quelle application, unité ou canal.
Trouvez des réponses et des informations essentielles à partir de vos données métier grâce à une technologie de recherche d’entreprise alimentée par l’IA.
Reliez les bonnes données, au bon moment et aux bonnes personnes, où qu’elles se trouvent.
1 Analytics and AI-driven enterprises thrive in the Age of With (lien externe à ibm.com), Deloitte Insights, 25 juillet 2019
2 3 open source NLP tools for data extraction (lien externe à ibm.com), InfoWorld, 10 juillet 2023