Qu’est-ce que le réglage fin ?

Publication : le 15 mars 2024
Contributeur : Dave Bergmann

Dans le machine learning, le réglage fin consiste à adapter un modèle pré-entraîné à des tâches ou à des cas d’utilisation spécifiques. C’est devenu une technique d’apprentissage profond fondamentale, en particulier dans le processus d’entraînement des modèles de fondation utilisés pour l’IA générative.

Le réglage fin peut être considéré comme un sous-ensemble de la technique plus large d’apprentissage par transfert (pratique consistant à tirer parti des connaissances qu’un modèle existant a déjà apprises comme point de départ pour l’apprentissage de nouvelles tâches).

L’intuition qui sous-tend le réglage fin est qu’il est essentiellement plus facile et moins coûteux d’affiner les capacités d’un modèle de base pré-entraîné qui a déjà acquis des connaissances générales pertinentes pour la tâche à accomplir que d’entraîner un nouveau modèle à partir de zéro pour ce but précis. C’est particulièrement vrai pour les modèles d’apprentissage profond avec des millions, voire des milliards de paramètres, comme les grands modèles de langage (LLM), qui ont pris de l’importance dans le domaine du traitement automatique du langage naturel (NLP), ou les réseaux neuronaux convolutifs complexes (CNN) et les vision transformers (ViT), utilisés pour les tâches de vision par ordinateur, comme la classification des images, la détection d’objets ou la segmentation d’image.

En tirant parti de l’entraînement préalable des modèles avec l’apprentissage par transfert, le réglage fin peut réduire la quantité de puissance de calcul nécessaire (et donc le prix) et les données étiquetées nécessaires pour obtenir de grands modèles adaptés à des cas d’utilisation de niche et à des besoins métier. Par exemple, le réglage fin peut être utilisé pour ajuster simplement le ton conversationnel d’un LLM pré-entraîné ou le style d’illustration d’un modèle de génération d’images pré-entraîné. Il peut également être utilisé pour compléter les apprentissages tirés du jeu de données d’entraînement d’origine d’un modèle avec des données propriétaires ou des connaissances spécialisées propres à un domaine.

Le réglage fin joue donc un rôle important dans l’application réelle des modèles de machine learning, ce qui permet de démocratiser l’accès et la personnalisation des modèles sophistiqués.

IA générative et ML au service des entreprises

Cet ebook décrit comment les organisations peuvent intégrer en toute confiance l’IA générative et le machine learning dans leurs opérations afin d’obtenir un avantage concurrentiel décisif.

Contenu connexe

Obtenir le guide sur les modèles de fondation

Réglage fin et entraînement

Bien que le réglage fin soit une technique ostensiblement utilisée dans l’entraînement des modèles, il s’agit d’un processus distinct de ce que l’on appelle conventionnellement « l’entraînement ». Par souci de clarté, les data scientists appellent généralement cette dernière étape de pré-entraînement dans ce contexte.

Pré-entraînement

Au début de l’entraînement (ou, dans ce contexte, du pré-entraînement), le modèle n’a encore rien « appris ». L’entraînement commence par une initialisation aléatoire des paramètres du modèle, c’est-à-dire des poids et des biais variables appliqués aux opérations mathématiques effectuées à chaque nœud du réseau neuronal.

L’entraînement se produit de manière itérative en deux phases : dans une passe directe, le modèle effectue des prédictions pour un lot d’échantillons d’entrées à partir du jeu de données d’entraînement, et une fonction de perte mesure la différence (ou perte) entre les prédictions du modèle pour chaque entrée et les réponses « correctes » (ou « vérité terrain »). Pendant la rétropropagation, un algorithme d’optimisation (généralement la descente de gradient) est utilisé pour ajuster les poids du modèle sur le réseau afin de réduire les pertes. Ces ajustements apportés aux poids du modèle constituent la manière dont celui-ci « apprend ». Le processus est répété pour plusieurs phases d’entraînement jusqu’à ce que le modèle soit jugé suffisamment entraîné.

L’apprentissage supervisé conventionnel, qui est généralement utilisé pour le pré-entraînement des modèles pour des tâches de vision par ordinateur telles que la classification d’images, la détection d’objets ou la segmentation d’images, utilise des données étiquetées : les étiquettes (ou annotations) fournissent à la fois l’éventail des réponses possibles et la sortie de vérité terrain pour chaque échantillon.

Les LLM sont généralement pré-entraînés par le biais d’un apprentissage autosupervisé (SSL), dans lequel les modèles apprennent par le biais de tâches prétextes conçues pour dériver la vérité terrain de la structure inhérente à des données non étiquetées. Ces tâches prétexte transmettent des connaissances utiles pour les tâches en aval. Elles adoptent généralement l’une des deux approches suivantes :

Auto-prédiction : masquer une partie de l’entrée d’origine et charger le modèle de la reconstruire. Il s’agit du principal mode d’entraînement des LLM.
Apprentissage contrastif : modèles d’entraînement pour apprendre des plongements similaires pour les entrées connexes et des plongements différents pour des entrées non liées. Ceci est utilisé en grande partie dans les modèles de vision par ordinateur conçus pour le « few shot learning » ou le « zero shot learning », comme l’entraînement préalable de langage et d’image contrasté (CLIP).

Le SSL permet donc d’utiliser des jeux de données extrêmement volumineux lors de l’entraînement sans avoir à annoter des millions ou des milliards de points de données. Cela permet d’économiser énormément de travail, mais nécessite néanmoins d’énormes ressources de calcul.

Réglage fin

À l’inverse, le réglage fin fait appel à des techniques permettant de poursuivre l’entraînement d’un modèle dont les poids ont déjà été mis à jour lors d’un entraînement antérieur. En utilisant les connaissances antérieures du modèle de base comme point de départ, le réglage fin adapte le modèle en l’entraînant sur un jeu de données plus petit et spécifique à une tâche.

Bien que ce jeu de données spécifique à une tâche aurait pu théoriquement être utilisé pour l’entraînement initial, entraîner un grand modèle à partir de zéro sur un petit jeu de données risque de provoquer un sur-ajustement : le modèle peut apprendre à bien fonctionner sur les exemples d’entraînement, mais ne se généralise pas aux nouvelles données. Cela rend le modèle inadapté à sa tâche donnée et va à l’encontre de l’objectif de l’entraînement du modèle.

Le réglage fin offre ainsi le meilleur des deux mondes : tirer parti des vastes connaissances et de la stabilité acquises lors de l’entraînement préalable sur un ensemble massif de données, et affiner la compréhension du modèle sur des concepts plus détaillés et spécifiques. Compte tenu des prouesses croissantes des modèles de fondation open source, les avantages peuvent souvent être obtenus sans la charge financière, informatique ou logistique de l’entraînement préalable.

Comment fonctionne le réglage fin ?

Le réglage fin utilise les poids d’un modèle pré-entraîné comme point de départ pour un entraînement ultérieur sur un jeu de données plus petit d’exemples qui reflètent plus directement les tâches et les cas d’utilisation spécifiques pour lesquels le modèle sera utilisé. Cela implique généralement un apprentissage supervisé, mais peut également impliquer un apprentissage par renforcement, un apprentissage autosupervisé ou un apprentissage semi-supervisé.

Les jeux de données utilisés pour le réglage fin transmettent les connaissances spécifiques du domaine, le style, les tâches ou les cas d’utilisation pour lesquels le modèle pré-entraîné est finement réglé. Exemple :

Un LLM pré-entraîné pour le langage général peut être finement réglé pour le codage avec un nouveau jeu de données qui contient les requêtes de programmation pertinentes et les extraits de code correspondants pour chacune.
Un modèle de classification d’images utilisé pour identifier certaines espèces d’oiseaux permet d’identifier de nouvelles espèces grâce à des échantillons d’entraînement étiquetés supplémentaires.
Un LLM peut apprendre à émuler un style d’écriture spécifique grâce à un apprentissage auto-supervisé sur des exemples de textes représentant ce style.

L’apprentissage semi-supervisé, un sous-ensemble du machine learning qui intègre à la fois des données étiquetées et non étiquetées, est avantageux lorsque le scénario nécessite un apprentissage supervisé, mais que les exemples étiquetés appropriés sont rares. Le réglage fin semi-supervisé a donné des résultats prometteurs pour les tâches de vision par ordinateur¹ et NLP² et permet de réduire le fardeau que représente l’acquisition d’une quantité suffisante de données étiquetées.

Le réglage fin peut être utilisé pour mettre à jour les poids de l’ensemble du réseau, mais pour des raisons pratiques, ce n’est pas toujours le cas. Il existe une grande variété de méthodes alternatives de réglage fin, souvent désignées sous le terme générique de « parameter-efficient fine-tuning » (PEFT), qui ne mettent à jour qu’un sous-ensemble de paramètres du modèle. Les méthodes PEFT, qui sont abordées plus loin dans cette section, peuvent diminuer les exigences de calcul et réduire l’oubli catastrophique, c’est-à-dire le phénomène dans lequel le réglage fin entraîne la perte ou la déstabilisation des connaissances de base du modèle, souvent sans compromis significatifs en matière de performances.

Compte tenu de la grande variété de techniques de réglage fin et des nombreuses variables inhérentes à chacune d’entre elles, l’obtention d’un modèle aux performances idéales nécessite souvent plusieurs itérations de stratégies et de configurations de formation, notamment en ajustant les jeux de données et les hyperparamètres tels que la taille du lot, le taux d’apprentissage et les termes de régularisation jusqu’à ce qu’un résultat satisfaisant (selon les indicateurs les plus pertinents pour votre cas d’utilisation) ait été atteint.

Réglage fin intégral

Conceptuellement, le moyen le plus simple d’effectuer un réglage fin consiste à mettre à jour l’ensemble du réseau neuronal. Cette méthodologie simple ressemble essentiellement au processus de pré-entraînement : les seules différences fondamentales entre le processus de réglage fin intégral et le processus d’entraînement préalable sont le jeu de données utilisé et l’état initial des paramètres du modèle.

Pour éviter les changements déstabilisants résultant du processus de réglage fin, certains hyperparamètres (attributs du modèle qui influencent le processus d’apprentissage mais ne sont pas eux-mêmes des paramètres pouvant être appris) peuvent être ajustés par rapport à leurs spécifications pendant l’entraînement préalable : par exemple, un taux d’apprentissage plus faible (qui réduit l’ampleur de chaque mise à jour des poids du modèle) est moins susceptible d’entraîner des oublis catastrophiques.

Parameter efficient fine-tuning (PEFT)

Le réglage fin intégral, comme le processus d’entraînement préalable auquel il ressemble, est très exigeant en termes de calcul. Pour les modèles modernes d’apprentissage profond avec des centaines de millions, voire plusieurs milliards de paramètres, le coût est souvent prohibitif et l’opération est peu pratique.

Le « parameter-efficient fine-tuning » (PEFT) englobe une série de méthodes visant à réduire le nombre de paramètres entraînables qui doivent être mis à jour afin d’adapter efficacement un grand modèle pré-entraîné à des applications spécifiques en aval. Ce faisant, le PEFT réduit considérablement les ressources informatiques et le stockage de la mémoire nécessaires pour obtenir un modèle finement réglé. Les méthodes PEFT se sont souvent révélées plus stables que les méthodes de réglage fin intégral, en particulier pour les cas d’utilisation NLP.³

Réglage fin partiel
Également appelé réglage fin sélectif, les méthodes de réglage fin partiel visent à réduire les demandes de calcul en mettant à jour uniquement le sous-ensemble sélectionné de paramètres pré-entraînés les plus critiques pour modéliser les performances des tâches en aval pertinentes. Les paramètres restants sont « gelés », ce qui garantit qu’ils ne seront pas modifiés.

L’approche la plus intuitive du réglage fin partiel consiste à ne mettre à jour que les couches extérieures du réseau neuronal. Dans la plupart des architectures de modèles, les couches internes du modèle (les plus proches de la couche d’entrée) ne capturent que des caractéristiques générales et génériques : par exemple, dans un CNN utilisé pour la classification d’images, les premières couches discernent généralement les bords et les textures, chaque couche suivante discerne des caractéristiques de plus en plus fines jusqu’à ce que la classification finale soit prédite au niveau de la couche la plus externe. En règle générale, plus la nouvelle tâche (pour laquelle le modèle est finement réglé) est similaire à la tâche initiale, plus les poids pré-entraînés des couches internes seront utiles pour cette nouvelle tâche connexe – et donc moins il y aura de couches à mettre à jour.

D’autres méthodes de réglage fin partiel, notamment la seule mise à jour des termes de biais du modèle à l’échelle de la couche (plutôt que les poids spécifiques aux nœuds),⁴ et les méthodes de réglage fin « épars » qui ne mettent à jour qu’un sous-ensemble sélectionné de poids globaux dans l’ensemble du modèle.⁵

Réglage fin additionnel
Plutôt que d’effectuer un réglage fin des paramètres existants d’un modèle pré-entraîné, les méthodes additionnelles ajoutent des paramètres ou des couches supplémentaires au modèle, gèlent les poids pré-entraînés existants et n’entraînent que ces nouveaux composants. Cette approche permet de conserver la stabilité du modèle en garantissant que les poids pré-entraînés d’origine restent inchangés.

Bien que cela puisse augmenter le temps d’entraînement, cela réduit considérablement les besoins en mémoire, car il y a beaucoup moins de gradients et d’états d’optimisation à stocker : selon Lialin et al., l’entraînement de tous les paramètres d’un modèle nécessite 12 à 20 fois plus de mémoire GPU que les seuls poids du modèle.⁶ D’autres économies de mémoire peuvent être réalisées grâce à la quantification des poids du modèle gelés : une réduction de la précision utilisée pour représenter les paramètres du modèle, conceptuellement similaire à la réduction du débit binaire d’un fichier audio.

L’une des sous-branches des méthodes additives est le réglage des invites. Sur le plan conceptuel, il est similaire au prompt engineering, qui consiste à personnaliser des « hard prompts », c’est-à-dire des invites écrites par un humain en langage naturel, pour guider le modèle vers la sortie souhaitée, en spécifiant un certain ton ou en fournissant des exemples qui facilitent l’apprentissage « few-shot ». Le réglage des invites introduit des « soft prompts » créées par l’IA (intégrations vectorielles faciles à apprendre qui sont concaténées à la hard prompt de l’utilisateur). Plutôt que de réentraîner le modèle, le réglage des invites consiste à geler les poids du modèle et à entraîner la soft prompt elle-même. Rapide et efficace, le réglage des invites permet aux modèles de passer plus facilement d’une tâche spécifique à l’autre, mais avec un compromis en matière d’interprétabilité.
 

Adaptateurs
Un autre sous-ensemble du réglage fin additif, injecte des modules d’adaptation, c’est-à-dire de nouvelles couches spécifiques à des tâches ajoutées au réseau neuronal, et entraîne ces modules d’adaptation au lieu d’affiner les poids des modèles pré-entraînés (qui sont figés). Selon l’article original, qui mesurait les résultats sur le modèle de langage masqué BERT, les adaptateurs ont atteint des performances équivalentes à celles d’un réglage fin intégral tout en n’entraînant que 3,6 % des paramètres en plus.⁷

Reparamétrage
Les méthodes basées sur le reparamétrage telles que l’adaptation de bas rang (« Low Rank Adaptation » ou LoRA) exploitent la transformation de bas rang de matrices de grande dimension (comme la matrice massive des poids de modèle pré-entraînés dans un modèle de transformateur). Ces représentations de rang inférieur omettent des informations de dimension supérieure sans importance afin de capturer la structure sous-jacente de faible dimension des poids du modèle, ce qui réduit considérablement le nombre de paramètres pouvant être entraînés. Ceci accélère considérablement le réglage et réduit la mémoire nécessaire pour stocker les mises à jour des modèles.

La LoRa évite l’optimisation directe de la matrice des poids du modèle et optimise à la place une matrice de mises à jour des poids du modèle (ou poids delta), qui est insérée dans le modèle. Cette matrice de mises à jour des poids est, à son tour, représentée sous la forme de deux matrices plus petites (c’est-à-dire de rang inférieur), ce qui réduit considérablement le nombre de paramètres à mettre à jour, accélère le réglage et réduit la mémoire nécessaire pour stocker les mises à jour des modèles. Les poids des modèles pré-entraînés eux-mêmes restent figés.

Un avantage supplémentaire de la LoRA est que, puisque les éléments optimisés et stockés ne sont pas les nouveaux poids du modèle mais plutôt la différence (ou delta) entre les poids pré-entraînés d’origine et les poids affinés, les différents LoRA propres à une tâche peuvent être « échangés » selon les besoins pour adapter le modèle pré-entraîné – dont les paramètres réels restent inchangés – à un cas d’utilisation donné.

Une variété de dérivées de la LoRA a été développée, comme la QLoRA, qui réduit davantage la complexité de calcul en quantifiant le modèle de transformateur avant la LoRA.

Réglage fin des grands modèles de langage

Le réglage fin est un élément essentiel du cycle de développement du LLM, car il permet d’adapter les capacités linguistiques brutes des modèles de fondation à une variété de cas d’utilisation, des chatbots au codage en passant par d’autres domaines tant créatifs que techniques.

Les LLM sont pré-entraînés à l’aide d’un apprentissage auto-supervisé sur un corpus massif de données non étiquetées. Les modèles de langage autorégressifs, comme les modèles GPT d’OpenAI, Gemini de Google ou Llama de Meta, sont entraînés à prédire simplement le ou les mots suivants dans une séquence, jusqu’à ce qu’elle soit complète. Lors du pré-entraînement, les modèles reçoivent le début d’un échantillon de phrase tiré des données d’entraînement et doivent prédire à plusieurs reprises le mot suivant dans la séquence jusqu’à la fin de l’échantillon. Pour chaque prédiction, le mot suivant de l’exemple de phrase original sert de « vérité de terrain ».

Bien que ce pré-entraînement permette d’obtenir des capacités de génération de texte puissantes, il ne permet pas de comprendre l’intention de l’utilisateur. A un niveau fondamental, les LLM autorégressifs ne répondent pas réellement à une invite ; ils ne font qu’y ajouter du texte. En l’absence de conseils très spécifiques sous la forme de prompt engineering, un LLM pré-entraîné (qui n’a pas été finement réglé) prédit simplement, de manière grammaticalement cohérente, quel pourrait être le ou les mots suivants dans une séquence donnée qui est lancée par l’invite. Si une invite « Comment rédiger un CV ? » est soumise à un LLM, celui-ci pourrait répondre « En utilisant Microsoft Word ». Il s’agit d’une manière correcte de compléter la phrase, mais qui ne correspond pas à l’objectif de l’utilisateur. Le modèle peut déjà disposer d’une connaissance substantielle de la rédaction de CV glanée à partir du contenu pertinent inclus dans son corpus de pré-entraînement, mais sans un réglage fin, cette connaissance risque de ne pas être accessible.

Le processus de réglage fin joue donc un rôle crucial non seulement en adaptant les modèles de fondation à votre ou à vos cas d’utilisation uniques (ou à ceux de votre entreprise), mais aussi en les rendant parfaitement adaptés à un usage pratique.

Réglage des instructions

Le réglage des instructions est un sous-ensemble du réglage fin supervisé (« supervised fine-tuning » ou SFT), souvent utilisé pour affiner les LLM pour l’utilisation des chatbots, qui prépare le LLM à générer des réponses qui correspondent plus directement aux besoins des utilisateurs : en d’autres termes, pour mieux suivre les instructions. Des exemples étiquetés, suivant le format (invite, réponse) – dans lequel les exemples d’invite comprennent des tâches axées sur l’instruction, comme « traduire la phrase suivante de l’anglais vers l’espagnol » ou « classer la phrase suivante comme positive ou négative » – montrent comment répondre à des invites qui représentent une variété de cas d’utilisation, comme la réponse à des questions, le résumé ou la traduction. En mettant à jour les poids du modèle pour minimiser la perte entre les sorties du modèle et les échantillons étiquetés, le LLM apprend à ajouter du texte aux invites d’une manière plus utile et à mieux suivre les instructions en général.

Pour reprendre l’exemple précédent d’invite «Comment rédiger un CV ? », le jeu de données utilisé pour le SFT pouvait contenir un certain nombre de paires (invite, réponse) qui démontrent que la façon souhaitée de répondre aux invites commençant par «Comment [...] » est de fournir des suggestions étape par étape plutôt que de simplement compléter la phrase.

Apprentissage par renforcement à partir de commentaires humains (RLHF)

Bien que le réglage des instructions puisse enseigner au modèle des comportements tangibles et simples, comme la façon de structurer ses réponses, il peut être extrêmement laborieux et difficile d’enseigner des qualités humaines abstraites telles que la serviabilité, l’exactitude factuelle, l’humour ou l’empathie à travers des exemples étiquetés.

Pour mieux aligner les résultats du modèle sur le comportement humain idéal, en particulier pour les cas d’utilisation conversationnels tels que les chatbots, le SFT peut être complété par un apprentissage par renforcement, plus précisément par l’apprentissage par renforcement à partir de commentaires humains (« reinforcement learning from human feedback » ou RLHF). Le RLHF, également appelé apprentissage par renforcement basé sur les préférences humaines, permet d’affiner les modèles pour des qualités complexes, mal définies ou difficiles à spécifier à l’aide d’exemples discrets.

Prenons l’exemple de la comédie : apprendre à un modèle à être « drôle » avec le SFT nécessite non seulement d’écrire (ou d’acquérir) suffisamment de blagues pour constituer un modèle appris, mais il faut aussi que ce qu’un data scientist pense être drôle corresponde à ce que la base d’utilisateurs elle-même trouve drôle. Le RLHF fournit essentiellement une alternative mathématiquement collaborative : vous invitez le LLM à générer des blagues et demandez à des testeurs humains d’évaluer leur qualité. Ces évaluations peuvent être utilisées pour former un modèle de récompense afin de prédire les types de blagues qui recevront des commentaires positifs, et ce modèle de récompense peut à son tour être utilisé pour former le LLM grâce à l’apprentissage par renforcement. 

Plus concrètement, le RLHF vise à relever les défis existentiels des LLM, comme les hallucinations, la transposition des préjugés sociétaux inhérents aux données de formation ou les entrées grossières ou contradictoires des utilisateurs.

Cas d’utilisation courants du réglage fin

Le réglage fin peut être utilisé à des fins très diverses, qu’il s’agisse de personnaliser ou de compléter les connaissances de base d’un modèle, ou encore d’étendre le modèle à des tâches et à des domaines entièrement nouveaux.

Personnalisation du style : les modèles peuvent être réglés finement pour refléter le ton souhaité par une marque, de la mise en œuvre de modèles comportementaux complexes et de styles d’illustration idiosyncratiques jusqu’à des modifications simples comme commencer chaque échange par une salutation polie.
Spécialisation : les capacités linguistiques générales des LLM peuvent être perfectionnées pour des tâches spécifiques. Par exemple, les modèles Llama 2 de Meta ont été publiés en tant que modèles de fondation, variantes optimisées pour le chatbot (Llama-2-chat) et variantes optimisées pour le code (Code Llama).
Ajout de connaissances spécifiques à un domaine : bien que les LLM soient pré-entraînés sur un corpus massif de données, ils ne sont pas omniscients. L’utilisation d’échantillons de formation supplémentaires pour compléter les connaissances du modèle de base est particulièrement pertinente dans les domaines juridique, financier ou médical, qui impliquent généralement l’utilisation d’un vocabulaire spécialisé et ésotérique qui n’a peut-être pas été suffisamment représenté lors de la formation préalable.
Apprentissage par étapes : les modèles qui possèdent déjà de solides connaissances générales peuvent souvent être finement réglés pour des textes plus spécifiques en utilisant relativement peu d’exemples démonstratifs.
Aborder les cas extrêmes : vous souhaiterez peut-être que votre modèle gère certaines situations qui n’ont probablement pas été abordées d’une manière spécifique lors du pré-entraînement. Affiner un modèle sur des exemples étiquetés de telles situations est un moyen efficace de garantir qu’elles seront traitées de manière appropriée.
Intégration de données propriétaires : votre entreprise dispose peut-être de son propre pipeline de données propriétaires, très pertinent pour votre cas d’utilisation spécifique. Le réglage fin permet d’intégrer ces connaissances dans le modèle sans avoir à l’entraîner à partir de zéro.

Solutions connexes

IBM watsonx.ai

Entraînez, validez, ajustez et déployez en toute facilité des capacités d’IA générative et de machine learning ainsi que des modèles de fondation, et créez des applications d’IA beaucoup plus rapidement, avec seulement une fraction des données disponibles.

Découvrir watsonx.ai

Modèles de base dans watsonx.ai

Le studio watsonx.ai propose une bibliothèque de modèles de fondation rentables de niveau entreprise développés par IBM, de modèles open source et de modèles provenant de fournisseurs tiers pour aider les clients et les partenaires à mettre à l’échelle et à opérationnaliser rapidement l’IA générative avec un risque minimal.

Découvrir la bibliothèque IBM de modèles de fondation

Ressources pour le réglage fin

Démarrage rapide : régler un modèle de fondation

Avec cette série de didacticiels et de guides vidéo, découvrez comment, pourquoi et quand régler un modèle de fondation dans watsonx.ai.

Développer des solutions d’IA générative avec des modèles de fondation

Découvrez et validez des cas d’utilisation à l’aide de modèles de fondation pour automatiser, simplifier et accélérer les processus existants ou apporter de la valeur d’une nouvelle manière.

Qu’est-ce que l’apprentissage zero-shot?

Découvrez l’apprentissage « zero-shot » (« zero-shot learning » ou ZSL), un scénario de machine learning dans lequel un modèle d’IA est entraîné à reconnaître et à catégoriser des objets ou des concepts sans avoir vu d’exemples au préalable, et comment les modèles peuvent être ajustés pour améliorer les performances « zero-shot ».

Passer à l’étape suivante

Formez, validez, ajustez et déployez une IA générative, des modèles de base et des capacités d'apprentissage automatique avec IBM watsonx.ai, un studio d'entreprise de nouvelle génération pour les constructeurs d'IA. Créez des apps d'IA en une fraction du temps et des données.

Découvrir watsonx.ai

Réserver une démo en direct

Notes de bas de page

^{Tous les liens sont externes à ibm.com}
¹ « Big Self-Supervised Models are Strong Semi-Supervised Learners », arXiv, 26 octobre 2020
² « CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of Pre-trained Language Models », arXiv, 2 mars 2021
³ « On the Effectiveness of Parameter-Efficient Fine-Tuning », arXiv, 28 novembre 2022
⁴ « BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models » arXiv, 18 juin 2021 (dernière mise à jour le 5 septembre 2022)
⁵ « Scaling Sparse Fine-Tuning to Large Language Models », arXiv, 2 février 2024
⁶ « Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning » arXiv, 28 mars 2023
⁷ « Parameter-Efficient Transfer Learning for NLP » arXiv, 13 juin 2019