Cloud

La compréhension du langage et IBM

Share this post:

Nous avons publié une série de nouveautés sur nos services d’Intelligence Artificielle IBM Watson autour du traitement du langage naturel. Le communiqué de presse est disponible ici.

Mais, je voulais revenir sur deux de ces annonces plus en détail.

  • Watson Assistant Enhanced-Model
  • Watson Discovery Reading Comprehension

Un nouveau modèle amélioré de classification d’intention pour Watson Assistant

Watson Assistant est une solution leader sur le marche des plateformes conversationnelles avec des références en production sur des clients de toutes tailles en France et à l’international (plus de 2000 clients à travers le monde).

Depuis les débuts, un axe majeur et différentiateur a été son moteur NLU, avec un leitmotiv simple « Learn more from less data » pour permettre la mise en oeuvre d’un agent conversationnel, d’un chatbot plus rapidement et avec moins de données d’entrainement.

Nous avons constamment amélioré le modèle de classification depuis sa mise en service.

En 2018, un benchmark a été réalisé et publié sur ce site (ici) qui montrait la performance/précision du modèle.

No alt text provided for this image

Désormais, avec la sortie de ce nouveau modèle, nous pouvons obtenir une précision encore meilleure avec un petit ensemble de données d’entraînement.

Pour évaluer ce nouveau modèle, nous avons utilisé des ensembles de données de test accessibles publiquement pour les développeurs et les chercheurs dans ce domaine, tels que la collecte de données HINT3, CLINC150, BANKING77 et HWU64. Avec les nouvelles améliorations, la précision de Watson Assistant s’est améliorée en moyenne de 2,7 points de précision (voir Tableau 8 – Qi et. Al, 2020).

No alt text provided for this image

Afin de tester avec précision et équité, les performances de ce nouveau modèle par rapport à celles de nos concurrents, nous avons utilisé différents ensembles de données open source: CLINC150, BANKING77, HWU64 et une collection HINT3 composée de 3 ensembles de données. Les ensembles de données varient en taille de centaines à des milliers d’exemples d’entrainement et couvrent différents domaines pour garantir qu’il n’y a pas de biais sur un domaine métier particulier. Nous avons utilisé un mixte d’exemples simples et concrets pour exécuter notre étude comparative afin de comparer les performances du modèle. Par exemple, un exemple d’intention facile serait « Transférer 40 € et le déplacer vers le compte A de B » tandis qu’un exemple plus difficile serait « Envoyer 57 euros d’épargne à Maman« .

Nous avons comparé les performances d’IBM Watson Assistant à ces ensembles de données et les comparons aux performances de Google Dialogflow, Microsoft LUIS et RASA, comme indiqué dans l’étude comparative précédente d’Arora et al. (2020) de la société Haptik.ai. Nous avons utilisé les mêmes ensembles de données complets et sous-ensembles dans l’analyse comparative d’IBM Watson Assistant que ceux utilisés dans l’étude comparative Arora et al. de 2020 de Google Dialogflow, Microsoft LUIS et RASA. Watson Assistant est maintenant jusqu’à 15 points de pourcentage plus précis. (Tableau 3 – Qi et. Al, 2020).

No alt text provided for this image

Nous avons également comparé le nouveau modèle Watson Assistant aux modèles de classification de texte Open-Source les plus courants tels que BERT, RoBERTa, XLNet, Albert, Distilbert, Fasttext. Les résultats de l’évaluation étaient axés à la fois sur les temps d’entrainement et la précision. Par exemple, RoBERTabase atteint des performances comparables à Watson Assistant, mais nécessite un temps de formation plus long sur CLINC150 (Tableau 6 – Qi et. Al, 2020).

No alt text provided for this image

Et oui dans un agent conversationnel comme dans nombreux cas d’usage d’IA en entreprise, le temps d’entrainement est un paramètre très important dans le choix d’une solution/approche pour des questions de couts financiers mais aussi énergétiques…

No alt text provided for this image

Le nouveau pipeline de détection d’intention exploite différents approche tel que le Transfert Learning, l’AutoML et le Meta-learning. Ces composants aident Watson Assistant à s’adapter rapidement aux domaines métier/vocabulaire non-connus et aux variations du jeux de données définis par l’utilisateur.

Watson Discovery Reading Comprehension

La compréhension de lecture (Reading Comprehension) est une fonctionnalité qui renvoie un fait spécifique ou une réponse courte à partir d’un long passage. Par exemple, considérez cette phrase de Wikipedia:

La Terre est principalement composée de fer (32,1%), d’oxygène (30,1%), de silicium (15,1%), de magnésium (13,9%), de soufre (2,9%), de nickel (1,8%), de calcium (1,5%) et d’aluminium ( 1,4%), le 1,2% restant étant constitué de traces d’autres éléments.

Lorsque la compréhension de lecture (Reading Comprehension) est activée dans Watson Discovery, l’utilisateur peut demander: «Quelle est la part de la Terre composée de silicium?», Et le système répondra «15,1%». Bien entendu, le système peut être configuré pour renvoyer une réponse plus longue, le passage dans le document et le document pour fournir un contexte complet. Mais pour les cas d’utilisation où des réponses succinctes sont essentielles – comme le service client – la compréhension de la lecture est une avantage considérable.

Reading Comprehension a été développé par IBM Research sous le nom de GAAMA (Go Ahead Ask Me Anything). GAAMA a été créé pour fournir une récupération fine des documents, paragraphes, tableaux basés sur les requêtes des utilisateurs, la réponse aux questions (Q&As) ou une forme de visualisation et de navigation des connaissances présentes dans les documents. IBM Research a récemment déployé GAAMA sur un corpus d’articles scientifiques CORD-19 sur COVID-19 pour démontrer les fonctionnalités auxquelles les entreprises peuvent s’attendre sur leur propre contenu avec Watson Discovery with Reading Comprehension.

No alt text provided for this image

Je vous invite également à le tester sur plusieurs types de contenus sur ce site : https://reading-comprehension-website.mybluemix.net/

No alt text provided for this image

GAAMA et le modèle NLP derrière Reading Comprehension, est actuellement en tête du classement TyDi QA de Google pour des tâches de réponse minimales. Le TyDi QA fournit une référence pour les réponses aux questions de recherche d’informations dans différentes langues diverses et les modèles performants sur cet ensemble de données devraient se généraliser à un grand nombre de langues dans le monde.

No alt text provided for this image

Si vous souhaitez creuser plus avant les différentes technologies de traitement du langage naturel chez IBM, n’hésitez pas à me contacter.

IBM Ecosystem Technical Leader, IBM France

More Cloud stories
3 juillet 2024

Intégration par design : la clé de la réussite de la transformation cloud

La transformation cloud est un processus complexe qui nécessite une planification méticuleuse et une exécution soignée pour réussir. Alors que les organisations se lancent dans la transformation du cloud, elles se concentrent souvent sur la migration des applications et des données vers le cloud, négligeant un aspect critique : l’intégration. L’un des défis majeurs que […]

Continue reading

12 juin 2024

Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (2/2) ?

Dans notre article « Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (1/2) ? », nous avons présenté les différentes étapes du pré-assessment technique qui consiste à analyser l’ensemble des applications du patrimoine applicatif. Dans cette seconde partie, nous allons détailler l’assessment technique à réaliser pour chacune des applications.   Phase […]

Continue reading

12 juin 2024

Comment bien préparer la migration d’un parc applicatif dans le cloud avec IBM Consulting (1/2) ?

Contrairement aux applications conçues et développées spécifiquement pour un environnement cloud, un parc applicatif « on premises » a généralement été bâti au fil du temps, avec des technologies datant d’époques différentes. Il est par nature plus ou moins hétérogène. Pour différentes raisons (par exemple la scalabilité horizontale et verticale de manière automatique en fonction du besoin, […]

Continue reading