Date de publication : 18 septembre 2024
Contributeurs : Ivan Belcic, Cole Stryker
Les transformeurs génératifs pré-entraînés (GPT) sont une famille de réseaux neuronaux avancés conçus pour les tâches de traitement automatique du langage naturel (NLP). Ces grands modèles de langage (LLM) reposent sur une architecture transformatrice et sont soumis à un pré-entraînement non supervisé sur de très grands jeux de données non étiquetés.
Les modèles GPT constituent la base de nombreuses applications d’IA générative telles que ChatGPT. Comme de nombreuses formes d’IA, un GPT est conçu pour automatiser les tâches dans le but de simuler les résultats créés par l’homme.
En 2018, OpenAI, un cabinet de recherche en IA, a lancé le premier modèle GPT baptisé GPT-1. Depuis, le cabinet a publié plusieurs avancées en matière de modèles d’IA GPT. Le modèle GPT le plus récent est GPT-4, publié début 2023. En mai 2024, OpenAI a annoncé le lancement de GPT-4o1, un modèle multilingue et multimodal capable de traiter les entrées audio, visuelles et textuelles en temps réel.
En tant que modèle de fondation, le GPT a ensuite été affiné et adapté à un large éventail de tâches spécifiques en aval. Au-delà des applications textuelles, un GPT alimente des applications d’intelligence artificielle (IA) qui génèrent et analysent des images via vision par ordinateur, rédigent du code, traitent des données et bien plus. Ces applications se connectent au GPT via des interfaces de programmation d’applications (API), qui leur permettent de transmettre des données dans les deux sens.
Découvrez comment bien choisir votre approche pour préparer vos jeux de données et employer vos modèles d’IA.
Le guide du PDG sur l’IA générative
Les modèles GPT ont accéléré le développement de l’IA générative grâce à leur architecture transformatrice, un type de réseau neuronal introduit en 2017 dans une publication de l’équipe Google Brain, Attention Is All You Need2. Depuis, les modèles de transformeur, notamment GPT et BERT, ont permis de nombreux développements notables dans le domaine de l’IA générative, notamment le chatbot ChatGPT d’OpenAI, qui occupe le devant de la scène.
Outre OpenAI, d’autres entreprises ont publié leurs propres modèles d’IA générative, notamment Claude d’Anthropic, Pi d’Inflection et Gemini de Google, anciennement connu sous le nom de Bard. De son côté, OpenAI alimente le service d’IA Copilot de Microsoft.
La flexibilité des modèles de transformeur tels que GPT permet de les appliquer à un large éventail de cas d’utilisation. La capacité de GPT à générer des textes semblables à ceux qu’un humain pourrait créer en fait un choix répandu pour :
Les chatbots alimentés par GPT peuvent sembler plus humains que les options de service client automatisées standard. Grâce aux API, les organisations peuvent relier GPT à des applications vocales pour concevoir des assistants vocaux capables de répondre à des affirmations plus complexes et de fournir des services conversationnels de réponse aux questions.
Grâce à des prompts efficaces, les modèles GPT peuvent générer du contenu textuel allant d’un texte court pour les réseaux sociaux à des articles de blog et des e-mails complets. De même, les rédacteurs peuvent se servir des GPT pour décrire ou conceptualiser le contenu qu’ils écrivent ensuite eux-mêmes, simplifiant ainsi les workflows de création de contenu.
Utiliser un GPT pour générer du contenu directement pour la publication peut poser des problèmes de propriété intellectuelle, l’un des principaux risques liés à l’utilisation de GPT.
Les applications basées sur un GPT peuvent traduire des langues en temps réel à partir de sources écrites et audio. Lors d’une démonstration en direct3, GPT-4o a démontré sa capacité à traduire en temps réel par lui-même.
GPT peut traiter et résumer des documents volumineux, tels que des déclarations juridiques ou des rapports d’activité. Il peut également réécrire le contenu dans le style spécifié par l’utilisateur. Par exemple, un utilisateur peut fournir un rapport trimestriel en tant que données d’entrée, puis demander que ce dernier soit structuré sous forme de liste à puces.
Un GPT peut traiter de grands volumes de données pour en tirer des informations digestes. Grâce aux API, d’autres applications peuvent utiliser un GPT pour créer des graphiques, des diagrammes et d’autres types de visualisations de données. Les organisations qui alimentent un modèle GPT avec des données internes peuvent s’exposer à des failles de cybersécurité ou violer les réglementations en matière de protection des données.
Les modèles GPT peuvent apprendre des langages de programmation et générer des extraits de code. Les utilisateurs obtiennent généralement de meilleurs résultats lorsqu’ils considèrent un GPT comme un assistant de codage plutôt que de lui demander de créer des applications complètes à partir de zéro. Tout le contenu généré par GPT, y compris le code, doit être examiné avant d’être utilisé pour garantir l’exactitude et l’utilisation raisonnable.
En février 2024, la United States National Library of Medicine (lien externe à ibm.com) a publié un article décrivant les applications potentielles des GPT dans le secteur des soins de santé. Ces derniers permettraient en effet un accès cohérent pour les patients se trouvant dans des zones éloignées et offriraient des options de soins personnalisées. Cependant, l’article présente également plusieurs inconvénients, tels que les problèmes de confidentialité et les limites de connaissances.
Les modèles GPT fonctionnent en analysant une séquence d’entrée et en appliquant des calculs complexes pour prédire la sortie la plus probable. Ils utilisent la probabilité pour identifier le meilleur mot suivant possible dans une phrase, en se basant sur tous les mots précédents. En tant que technologie d’IA d’apprentissage profond, les GPT peuvent traiter des prompts en langage naturel pour générer des réponses textuelles pertinentes et humaines.
Lorsqu’un utilisateur saisit un prompt textuel, le GPT crée la réponse la plus probable en fonction de ses données d’entraînement comprenant des milliards de sources de données textuelles accessibles au public, allant d’œuvres littéraires célèbres à du code open source.
Grâce à l’immensité de ses jeux de données d’entraînement, le GPT est capable d’imiter des capacités humaines de compréhension du langage. Les modèles GPT à grande échelle appliquent l’apprentissage profond au contexte de traitement et intègrent les connaissances du texte pertinent à leurs données d’entraînement pour prédire la meilleure réponse.
La puissance des modèles GPT provient de deux aspects clés :
Le pré-entraînement génératif, qui enseigne au modèle comment détecter des tendances dans des données non étiquetées puis appliquer ces modèles à de nouvelles entrées.
Une architecture transformatrice, qui permet au modèle de traiter toutes les parties d’une séquence d’entrée en parallèle.
Le pré-entraînement génératif est le processus d’entraînement d’un grand modèle de langage sur des données non étiquetées. Il permet au modèle d’apprendre à reconnaître diverses données et à affiner sa capacité à créer des prédictions précises. Les GPT génèrent de nouvelles données en appliquant les tendances et la structure de leurs données de pré-entraînement aux entrées de l’utilisateur.
Le pré-entraînement génératif est une forme d’apprentissage non supervisé, dans lequel le modèle est alimenté par des données non étiquetées et est obligé de les comprendre par lui-même. En apprenant à détecter des tendances dans des jeux de données non étiquetés, les modèles de machine learning sont en mesure de tirer des conclusions similaires lorsqu’ils sont exposés à de nouvelles entrées, telles qu’un prompt utilisateur dans ChatGPT.
Les modèles GPT sont entraînés avec des milliards, voire des trillions de paramètres : des variables internes qu’un modèle affine au cours du processus d’entraînement et qui déterminent son comportement. Bien que OpenAI n’ait pas encore révélé de détails précis sur GPT-4, on estime que le modèle contiendra environ 1,8 trillion de paramètres4, soit une multiplication par plus de dix par rapport à GPT-3.5.
Les modèles de transformeur sont un type de réseau neuronal spécialisé dans le traitement automatique du langage naturel, qui permet d’identifier l’intention et le sens d’une saisie textuelle. Ils peuvent traiter les entrées de manière dynamique et se concentrer sur les mots les plus importants, quel que soit l’endroit où ils se trouvent dans la phrase.
Les modèles GPT ne comprennent pas le langage de la même manière que les humains. Ils traitent les mots dans des unités discrètes appelées jetons, certains mots étant divisés en plusieurs jetons. En évaluant tous les jetons à la fois, les transformeurs excellent dans l’établissement de dépendances à longue distance, c’est-à-dire les relations entre les jetons distants. Un GPT s’appuie sur sa compréhension des dépendances à longue distance pour traiter les entrées de manière contextuelle.
Les modèles de transformeur traitent les données à l’aide de deux modules appelés encodeurs et décodeurs, tout en utilisant des mécanismes d’auto-attention pour établir des dépendances et des relations.
Les mécanismes d’auto-attention sont la caractéristique typique des transformeurs, leur permettant de traiter une séquence d’entrée entière à la fois. Les transformeurs peuvent tourner automatiquement leur « attention » sur les jetons les plus importants dans la séquence d’entrée, où qu’ils se trouvent.
A contrario, les anciens réseaux neuronaux récurrents (RNN) et réseaux neuronaux convolutifs (CNN) évaluent les données d’entrée de manière séquentielle ou hiérarchique. L’auto-attention permet aux GPT de traiter le contexte et de répondre longuement avec un langage qui semble naturel, plutôt que de simplement deviner le mot suivant dans une phrase.
L’encodage est le processus de mise en correspondance des jetons dans un espace vectoriel virtuel tridimensionnel. Les jetons encodés à proximité dans l’espace 3D sont supposés avoir un sens plus similaire. Cette vectorisation mathématique d’une séquence d’entrée est connue sous le nom d’incorporation.
Les blocs d’encodeur au sein du réseau de transformeurs attribuent à chaque incorporation un poids qui détermine son importance relative. Parallèlement, les encodeurs de position capturent la sémantique, permettant aux modèles GPT de différencier les groupes de mots identiques mais dans des ordres différents, par exemple, « L’œuf est arrivé avant la poule » par rapport à « La poule est arrivée avant l’œuf ».
Les décodeurs prédisent la réponse la plus probable statistiquement aux incorporations préparées par les encodeurs. Les mécanismes d’auto-attention permettent au décodeur d’identifier les parties les plus importantes de la séquence d’entrée, tandis que les algorithmes avancés déterminent la sortie la plus susceptible d’être correcte.
Depuis la sortie de GPT en 2018, OpenAI est restée à l’avant-garde de la conversation sur l’IA générative. En plus de son produit phare ChatGPT, l’entreprise s’est également tournée vers la génération d’images avec DALL-E, ainsi que la vidéo générative avec Sora.
OpenAI publie son premier modèle GPT. Ses performances étaient impressionnantes pour l’époque, servant de preuve de concept pour ce que les développements ultérieurs permettraient d’accomplir. GPT-1 a été capable de répondre à des questions à la manière d’un être humain et de réagir à des prompts de génération de texte, mettant en évidence ses futurs cas d’utilisation dans les chatbots et la création de contenu.
GPT-1 était relativement sujet aux hallucinations ou confabulations : il présentait des informations incorrectes comme étant factuelles. Ses réponses montraient qu’OpenAI n’avait pas encore perfectionné la capacité de GPT à identifier les dépendances à longue distance et à relier des réponses précises et longues.
Le modèle suivant d’OpenAI comptait 1,5 milliard de paramètres, améliorant ainsi ses performances. Le GPT-2 a eu plus de succès que son prédécesseur lorsqu’il s’agissait de maintenir la cohérence sur des réponses plus longues, suggérant que sa détection de dépendances à longue distance était beaucoup plus développée.
GPT-2 a été publié en plusieurs étapes, plusieurs modèles à capacité limitée étant disponibles avant la version complète. Dans une déclaration5, OpenAI a expliqué devoir procéder à une publication échelonnée afin d’atténuer les éventuelles utilisations abusives et d’autres problèmes éthiques. OpenAI a d’ailleurs souligné comment le modèle pouvait être utilisé pour se faire passer pour d’autres personnes en ligne, générer des informations trompeuses et automatiser les contenus de cyberharcèlement et de phishing.
Bien que le PDG d’OpenAI, Sam Altman, ait lancé à plusieurs reprises des appels publics en faveur d’une réglementation gouvernementale de l’IA, l’entreprise a également fait pression en privé pour rendre la loi européenne sur l’IA moins restrictive6. La rédaction finale de la loi, approuvée par le Parlement européen en juin 2024, semblait suivre les recommandations de l’entreprise.
Avec 175 milliards de paramètres, soit plus d’une centaine de fois plus que son prédécesseur, GPT-3 est devenu l’un des plus grands LLM de son époque. Ses capacités dépassaient largement celles des anciens modèles dans sa lignée. La version gratuite de ChatGPT est toujours alimentée par GPT-3.5, la version la plus récente de GPT-3.
Si les performances de GPT-3 reflètent sa puissance et sa taille supplémentaires, ses exigences en matière d’entraînement ont également grimpé en flèche. Les ressources de calcul et d’énergie nécessaires pour entraîner des LLM d’une telle envergure ont suscité des inquiétudes en matière d’empreinte carbone et d’utilisation d’eau7. En réponse, OpenAI a développé de nouvelles méthodes d’entraînement optimisant l’efficacité du processus d’entraînement.
La version actuelle de GPT est la plus puissante d’OpenAI, surpassant ses prédécesseurs en termes de qualité de contenu et d’évitement des biais. Le modèle est à l’origine de la version premium de ChatGPT, qui offre aux abonnés une fonctionnalité et des performances supérieures à celles du modèle GPT-3.5, version gratuite du service.
Cependant, il s’agit également du modèle le plus gourmand en ressources de la famille GPT, dont les coûts opérationnels quotidiens sont estimés à 700 000 USD8. Alors que les LLM continuent de se développer, des débats persistent sur les coûts par rapport aux avantages potentiels. Un rapport publié par Goldman Sachs en juin 20249 s’intéresse aux cas d’utilisation potentiellement limités de l’IA générative par rapport à l’augmentation des coûts d’entraînement et de maintenance des modèles.
GPT-4 Turbo, l’itération actuelle du modèle, a une date d’arrêt des connaissances définie à avril 2023. Cela signifie que ses données d’entraînement ou sa base de connaissances ne couvrent aucun contenu en ligne publié après cette date.
Révélé en mai 2024, GPT-4o est un modèle multilingue qui prend en charge le contenu dans de nombreuses langues autres que l’anglais. C’est aussi un modèle multimodal qui peut traiter les prompts image, audio et vidéo tout en générant du texte, des images et du contenu audio en réponse. Selon OpenAI, GPT-4o est 50 % moins cher et deux fois plus rapide10 en termes de génération de texte que GPT-4 Turbo.
Alors que les GPT et autres modèles d’IA générative ont été encensés par les médias, leur utilisation n’est pas sans risque. Les organisations et les personnes qui cherchent à intégrer les GPT dans leurs workflows doivent prendre conscience des risques potentiels, notamment :
Confidentialité des données
Violations de la propriété intellectuelle et conflits de propriété
Résultats erronés
Biais du modèle
Toutes les données saisies dans GPT peuvent être utilisées lors du traitement d’autres requêtes et peuvent être exploitées par OpenAI pour former d’autres modèles. Cela pose non seulement un risque de sécurité pour les données confidentielles, mais cela expose également les organisations au risque de violer leurs obligations contractuelles et légales en matière de protection des données.
OpenAI entraîne ses modèles à partir de contenus protégés par des droits d’auteur. Bien que l’entreprise défende ce choix en tant qu’utilisation équitable, elle a fait l’objet de poursuites judiciaires, notamment d’une action en justice intentée par leNew York Times11 en décembre 2023. Les sorties générées par l’IA peuvent contenir du contenu protégé par des droits d’auteur, et son utilisation peut enfreindre les restrictions relatives aux droits d’auteur si elle n’est pas vérifiée et modifiée au préalable par des êtres humains.
OpenAI a également été critiquée lorsque l’une de ses voix sur ChatGPT aurait été inspirée de celle de l’actrice Scarlett Johansson12, qui a joué le rôle d’une IA futuriste dans le film Her, sorti en 2013. OpenAI a depuis cessé d’utiliser cette voix dans ses produits.
Rien ne garantit que les résultats générés par GPT sont factuellement corrects. Les modèles d’IA générative sont sujets à des hallucinations ou confabulations, dans lesquelles leurs algorithmes détectent des tendances dans les données qui n’existent pas. Les confabulations amènent les modèles à produire un contenu inexact qui est présenté à l’utilisateur comme s’il s’agissait d’un fait fiable. Cette tendance, en ce qui concerne ChatGPT, a été longuement étudiée dans un article de 2024 par Hicks et d’autres13.
Le biais du modèle relate une divergence entre les prévisions d’un modèle basées sur ses données d’entraînement et ce qui se passe dans le monde réel. GPT est formé à partir de nombreuses données Internet, et comme ce contenu est créé par des personnes, il peut contenir des points de vue discriminatoires, parfois intentionnels, souvent non. À mesure que l’IA est intégrée aux politiques, à la santé et à d’autres domaines de la vie quotidienne, ses biais peuvent avoir de réelles conséquences.
Explorez la bibliothèque de modèles de fondation d'IBM sur la plateforme watsonx pour déployer l'IA générative dans votre entreprise en toute confiance.
Apprenez-en plus sur le studio d’entreprise nouvelle génération qui permet aux générateurs d’IA d’entraîner, valider, ajuster et déployer des modèles IA.
Réinventez votre façon de travailler avec l’IA pour les entreprises.
Passez des projets pilotes d’IA à la production et à l’impact grâce à des technologies d’IA conçues pour les entreprises.
Augmentez la compétitivité dans le secteur des produits de consommation grâce à l’IA générative.
La conception d’expériences à l’aide de l’IA générative permet une personnalisation et une automatisation accrues et transforme les créateurs de contenu en curateurs de contenu.
Les outils d’éthique de l’IA peuvent-ils être utiles ? Les outils sont-ils biaisés ? Voici un bref aperçu de récentes recherches sur le sujet.
1 Hello GPT-4o (lien externe à ibm.com), OpenAI, 13 mai 2024
2 Attention Is All You Need (lien externe à ibm.com), Vaswani et al, 12 juin 2017
3 Démonstration en direct d’une traduction réalisée par GPT-4o en temps réel (lien externe à ibm.com), OpenAI, 13 mai 2024
4 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE (lien externe à ibm.com), Patel & Wong, 10 juillet 2023
5 Better language models and their implications (lien externe à ibm.com), OpenAI, 14 février 2019
6 Exclusive: OpenAI Lobbied the EU to Water Down AI Regulation (lien externe à ibm.com), Billy Perrigo, 20 juin 2023
7 A Computer Scientific Breaks Down Generative AI’s Hefty Carbon Footprint (lien externe à ibm.com), Saiko et autres, 25 mai 2023
8 Microsoft Readies AI Chip as Machine Learning Costs Surge (lien externe à ibm.com), Gardizy & Ma, 18 avril 2023
9 GenAI: Too Much Spend, Too Little Benefit? (lien externe à ibm.com), Nathan, Grimberg et Rhodes, 25 juin 2024
10 Plateforme OpenAI (lien externe à ibm.com), OpenAI
11 Dossier 1:23-cv-11195 (lien externe à ibm.com), Barron et al, 27 décembre 2023
12 Scarlett Johansson says a ChatGPT voice is ‘eerily similar’ to hers and OpenAI is halting its use (lien externe à ibm.com), Grantham-Philips, 21 mai 2024
13 ChatGPT is bullshit (lien externe à ibm.com), Hicks et autres, 8 juin 2024