Qu’est-ce qu’un grand modèle de langage (LLM) ?

Qu’est-ce qu’un LLM ?

Les grands modèles de langage (LLM) constituent une catégorie de modèles de fondation entraînés à l’aide d’immenses quantités de données pour comprendre et générer des textes en langage naturel, ainsi que d’autres types de contenu, afin d’accomplir un large éventail de tâches.

Très connus pour avoir contribué à introduire l’IA générative auprès du grand public, les LLM présentent également un grand intérêt pour les entreprises qui cherchent à intégrer l’intelligence artificielle dans leurs fonctions et à multiplier les cas d’utilisation.

En dehors du contexte de l’entreprise, on pourrait croire que les LLM sont sortis de nulle part, en même temps que d’autres avancées en matière d’IA générative. Pourtant, cela fait des années que bon nombre d’entreprises, dont IBM, mettent en œuvre les LLM à différents niveaux pour améliorer la compréhension du langage naturel (NLU) et le traitement automatique du langage naturel (TAL). Parallèlement, d’autres avancées ont été réalisées : machine learning, modèles de machine learning, algorithmes, réseaux neuronaux et modèles de type « transformateur » qui fournissent l’architecture de ces systèmes d’IA.

Les LLM représentent une catégorie de modèles de fondation qui sont entraînés à l’aide de vastes quantités de données afin de fournir les fonctionnalités essentielles pour gérer une multitude de cas d’utilisation et d’applications, et accomplir un grand nombre de tâches. Cette approche est aux antipodes de celle qui consiste à créer et à entraîner des modèles spécifiques à chaque domaine, pour chaque cas d’utilisation, qui est à proscrire à bien des égards (principalement le coût et l’infrastructure), qui freine les synergies et peut même engendrer une baisse des performances.

Les LLM représentent une avancée majeure en matière de TAL et d’intelligence artificielle, et sont facilement accessibles au public grâce à des interfaces telles que Chat GPT-3 et GPT-4 d’Open AI, désormais intégrées par Microsoft. Parmi les autres exemples, citons les modèles Llama de Meta et les modèles BERT/RoBERTa (représentations d’encodeur bidirectionnel à partir de transformateurs) et PaLM de Google. IBM a récemment lancé sa série de modèles Granite sur la plateforme watsonx.ai, devenue l’épine dorsale de l’IA générative qui alimente d’autres produits IBM tels que watsonx Assistant et watsonx Orchestrate.

En bref, les LLM sont conçus pour comprendre et générer des textes en langage humain, ainsi que d’autres formes de contenu, grâce aux énormes quantités de données utilisées pour les entraîner. Ils ont la capacité de saisir le contexte, de générer des réponses cohérentes et contextuellement pertinentes, de traduire en langues autres que l’anglais, de résumer un texte, de répondre à des questions (conversation générale et FAQ), et même d’accélérer l’écriture créative et les tâches de génération de code.

Tout cela est possible grâce aux milliards de paramètres qui leur permettent de saisir des schémas linguistiques complexes et de réaliser un large éventail de tâches ayant trait au langage. Les LLM sont en train de révolutionner les applications dans divers domaines, des chatbots à la traduction en passant par les assistants virtuels, la production de contenu et la recherche.

Parce qu’ils ne cessent d’évoluer et de s’améliorer, les LLM promettent de changer notre façon d’interagir avec la technologie et d’accéder à l’information. Leur rôle dans le paysage numérique moderne est donc fondamental.

Apprendre à utiliser Presto

Découvrez l'e-book gratuit d'O'Reilly pour apprendre à vous lancer avec Presto, le moteur SQL open source destiné à l'analyse des données.

Contenu connexe

Obtenir l’eBook sur les entrepôts de données pour l’IA

Comment fonctionnent les grands modèles de langage ?

Les LLM s’appuient sur des techniques d’apprentissage profond et de grandes quantités de données textuelles. Ces modèles reposent généralement sur une architecture de type transformateur, comme le transformateur génératif pré-entraîné, qui excelle dans le traitement des données séquentielles telles que les entrées textuelles. Les LLM comportent plusieurs couches de réseaux neuronaux, dont les paramètres peuvent être réglés pendant l’entraînement, et auxquelles vient s’ajouter ce que l’on appelle le mécanisme d’attention. Composé de plusieurs couches, ce dernier se concentre uniquement sur certaines parties du jeu de données.

Pendant la phase d’entraînement, ces modèles apprennent à prédire le mot suivant dans une phrase en fonction du contexte fourni par les mots précédents. Pour ce faire, le modèle attribue un score de probabilité aux séquences de mots ayant fait l’objet d’une tokenisation (découpage en séquences de caractères plus courtes). Ces tokens sont ensuite utilisés pour obtenir des représentations vectorielles du contexte, appelées également embeddings.

Pour garantir leur exactitude, les LLM sont entraînés à l’aide d’un vaste corpus de textes (des milliards de pages). Ils apprennent ainsi grammaire, sémantique et relations conceptuelles grâce à un mécanisme d’apprentissage sans données de référence (« zero-shot learning ») et à l’apprentissage auto-supervisé. Une fois entraînés sur ces données, les LLM peuvent générer des textes en prédisant de manière autonome le mot suivant en fonction de l’entrée qu'ils reçoivent et en s’appuyant sur les modèles et les connaissances qu’ils ont acquis. Le texte ainsi généré est cohérent, pertinent dans le contexte donné et exploitable pour un large éventail de tâches de traitement automatique du langage naturel et de production de contenu.

La performance des modèles peut également être améliorée grâce à des techniques comme le prompt engineering (ou ingénierie des prompts), l’optimisation des prompts, le fine-tuning (ou réglage fin), ou encore l’apprentissage par renforcement avec rétroaction humaine (RLHF). Toutes ces pratiques permettent d’éliminer les biais, les propos haineux et les réponses factuellement incorrectes. Appelées « hallucinations », ces dernières sont souvent le résultat indésirable des entraînements réalisés sur une grande quantité de données non structurées. Il s’agit de l’un des aspects les plus importants à prendre en compte pour garantir que les LLM sont prêts à être utilisés, qu’ils n’exposent pas l’entreprise à des conséquences juridiques et qu’ils n’affectent pas sa réputation.

Cas d’utilisation des LLM

Polyvalents, les LLM redéfinissent un nombre croissant de processus métier, ayant prouvé leur efficacité dans une multitude de cas d'utilisation, de tâches et de secteurs d’activité. Ils optimisent les chatbots conversationnels et les assistants virtuels alimentés par l’IA (comme IBM watsonx Assistant et Google Bard). En fournissant des réponses contextuelles qui imitent les échanges humains, ils permettent d’améliorer l’interaction et d’offrir un service client d’exception.

Les LLM excellent également dans la production de contenu grâce à leur capacité à automatiser les tâches de rédaction (articles de blog, textes commerciaux ou de marketing, etc.). Dans le domaine académique et la recherche, ils facilitent la synthèse et l’extraction d’informations à partir de vastes jeux de données afin d’accélérer la découverte de connaissances. Les LLM jouent également un rôle important dans la traduction : capables de traduire avec exactitude et pertinence, ils contribuent à faire tomber les barrières linguistiques. Ils peuvent même être utilisés pour écrire du code ou « traduire » d’un langage de programmation à un autre.

En outre, les LLM améliorent l’accessibilité grâce aux applications de synthèse vocale et à la production de contenu dans des formats accessibles aux personnes en situation de handicap. Les LLM rationalisent les processus, améliorent l’expérience client et optimisent la prise de décision axée sur les données, transformant tous les secteurs, de la santé à la finance.

Qui plus est, toutes ces fonctionnalités sont facilement accessibles : dans certains cas, une intégration d’API suffit.

Voici les principaux usages des LLM en entreprise :

Production de textes : rédaction d’e-mails, d’articles de blog ou de tout autre type de contenu de longueur moyenne à grande, en réponse à des prompts qui peuvent être réglés et peaufinés. La génération augmentée par récupération (RAG) en est un excellent exemple.

Synthèse de texte : capacité à résumer des articles longs, des reportages, des rapports de recherche, la documentation d’entreprise et même l’historique client pour en faire des textes détaillés, dont la longueur est adaptée au format de sortie.

Assistants IA : chatbots conçus pour répondre aux questions des clients, accomplir des tâches back-end et fournir des informations détaillées en langage naturel, grâce à l’intégration d’une solution de service client en libre-service.

Génération de code : les LLM aident les développeurs à créer des applications, à détecter les erreurs de codage et les problèmes de sécurité dans divers langages de programmation, et même à « traduire » d’un langage de programmation à un autre.

Analyse de sentiments : analyse de texte pour déterminer le ton employé par le client, comprendre son ressenti à l’échelle et aider les marques à optimiser la gestion de leur réputation.

Traduction : couverture linguistique et géographique plus importante, traduction fluide et capacités multilingues.

Si les LLM promettent d’impacter tous les secteurs, de la finance à la santé en passant par l’assurance et les ressources humaines, c’est grâce à leur capacité à automatiser le service client en libre-service, à accélérer les temps de réponse associés à un nombre croissant de tâches, à améliorer la précision, l’acheminement et le recueil de contexte intelligent.

LLM et gouvernance

Les entreprises ont besoin d’une gouvernance solide pour exploiter pleinement le potentiel des modèles d’IA et révolutionner leur façon de travailler. Pour ce faire, elles doivent se doter de technologies et d’outils d’IA fiables, transparents, responsables et sécurisés. La gouvernance et la traçabilité de l’IA sont deux autres aspects fondamentaux des solutions qu’IBM propose à ses clients. Les activités qui intègrent l’IA sont efficacement gérées et surveillées pour garantir que les origines, les données et les modèles sont contrôlés de façon vérifiable et responsable.

Solutions connexes

Modèles Granite

Entraînés sur des jeux de données orientés entreprise, sélectionnés par IBM pour prévenir les risques associés à l’IA, les modèles sont déployés de manière responsable et nécessitent des entrées minimales pour être prêts à l’emploi.

Découvrir Granite et d’autres modèles d’IA IBM

Studio IA nouvelle génération

Watsonx.ai donne accès aux modèles open source de Hugging Face, à des modèles tiers, ainsi qu’à la famille de modèles pré-entraînés d’IBM. La série de modèles Granite, par exemple, s’appuie sur une architecture de type décodeur pour prendre en charge diverses tâches d’IA générative et répondre aux besoins spécifiques des entreprises.

Découvrir IBM watsonx.ai

Voir la démo interactive

Leader du marché de l’IA conversationnelle

Offrez une expérience d’exception aux clients lors de chaque interaction, aux agents des centres d’appels qui ont besoin d’aide, et même aux employés qui ont besoin d’informations. Générez des réponses en langage naturel exactes et rapides, fondées sur le contenu de votre entreprise, pour favoriser une interaction axée sur les résultats.

Découvrir IBM watsonx Assistant

Workflows rationalisés

Automatisez vos tâches et simplifiez vos processus les plus complexes pour permettre à vos équipes de se concentrer sur les tâches stratégiques à plus forte valeur ajoutée. Le tout, grâce à une interface conversationnelle qui associe automatisations et outils d’IA pour améliorer la productivité.

Découvrir IBM watsonx Orchestrate

Ressources

IBM watsonx.ai : modèles de fondation pré-entraînés

L’IA et l’automatisation peuvent présenter l’inconvénient d’être gourmandes en main-d’œuvre. Mais tout cela est en train de changer grâce aux modèles de fondation open source pré-entraînés.

Modèles de fondation IBM Granite

Développés par IBM Research, les modèles Granite s’appuie sur une architecture de type décodeur. C’est ce qui permet aux grands modèles de langage d’aujourd'hui de prédire le mot suivant dans une séquence.

Le guide du PDG sur l'IA générative

Notre recherche axée sur les données aide les entreprises à identifier et à saisir les opportunités qu’offre le domaine en plein essor et en constante évolution de l’IA générative.

Innover : IA générative et recherche conversationnelle

Alimentée par notre grand modèle de langage IBM Granite et notre moteur de recherche d’entreprise Watson Discovery, la fonctionnalité de recherche conversationnelle a été pensée pour mettre à l’échelle les réponses fondées sur le contenu de votre entreprise.

IA générative et ML au service des entreprises

Si l’adoption de l’IA générative à l’échelle de l’entreprise reste un défi, la mise en œuvre de cette technologie permet d’obtenir un avantage concurrentiel significatif.

Optimisez votre main-d’œuvre grâce au travail numérique

Et si la « Grande démission » n’était qu’une immense opportunité d’amélioration, de mieux utiliser les compétences des salariés afin de les attirer et de les retenir ? Le travail numérique rend tout cela possible en se chargeant des tâches fastidieuses.

Passer à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo en direct