Qu'est-ce que Llama 2 ?

Publication : 19 décembre 2023
Contributeurs : Dave Bergmann

Llama 2 est une famille de grands modèles de langage (LLM) pré-entraînés et affinés, publiés par Meta AI en 2023. Mis à disposition gratuitement pour la recherche et l'utilisation commerciale, les modèles d'IA Llama 2 sont capables d'une variété de tâches de traitement automatique du langage naturel (NLP), de la génération de texte au code de programmation.

La famille de modèles Llama 2, proposée à la fois sous forme de modèles de fondation de base et de modèles « chat » affinés, succède aux modèles LLaMa 1 originaux, qui ont été mis sur le marché en 2022 dans le cadre d'une licence non commerciale accordant un accès au cas par cas exclusivement aux institutions de recherche. Contrairement à leurs prédécesseurs, les modèles Llama 2 sont disponibles gratuitement pour la recherche et l'utilisation commerciale de l'IA.

Les modèles Llama de Meta visent donc à jouer un rôle important dans la démocratisation de l'écosystème de l'IA générative. Comme indiqué dans le rapport de recherches sur le Llama 2 (lien externe à ibm.com), bien que la méthodologie de pré-entraînement des LLM autorégressifs via l'apprentissage auto-supervisé soit désormais relativement simple et bien maîtrisée, les immenses exigences de calcul que le processus implique ont largement limité le développement des LLM ultramodernes à un petit nombre d'acteurs clés. Étant donné que la plupart des LLM ultramodernes, comme le GPT d'OpenAI, le Claude d'Anthropic et le BARD de Google, sont des modèles propriétaires (et massifs) à code source fermé, l'accès à la recherche publique sur l'IA, qui pourrait aider à comprendre comment et pourquoi ces modèles fonctionnent, et comment mieux adapter leur développement aux intérêts de l'homme, a été nettement restreint.

Outre la mise à disposition gratuite de son code et des pondérations de modèle, le projet Llama s'est concentré sur l'amélioration des performances des petits modèles, plutôt que sur la multiplication des paramètres. Alors que la plupart des grands modèles en source fermée ont des centaines de milliards de paramètres, les modèles Llama 2 sont proposés avec sept milliards (7B), 13 milliards (13B) ou 70 milliards de paramètres (70B).

Cela permet aux petites organisations, comme les startups et les membres de la communauté des chercheurs, de déployer des instances locales de modèles Llama 2, ou des modèles basés sur Llama développés par la communauté de l'IA, sans avoir besoin d'un temps de calcul ou d'investissements d'infrastructure prohibitifs.

En savoir plus : IBM intègre Llama 2 à sa plateforme d'IA et de données Watsonx

Llama 2 vs. LLaMa 1

Le rapport de recherches sur le Llama 2 détaillent plusieurs avantages que la nouvelle génération de modèles IA offre par rapport aux modèles LLaMa d'origine.

Longueur du contexte plus élevée : Les modèles Llama 2 offrent une longueur du contexte de 4 096 jeton, soit le double de celle du LLaMa 1. La longueur du contexte (ou fenêtre de contexte) fait référence au nombre maximum de jetons dont le modèle peut se « souvenir » pendant l'inférence (c'est-à-dire la génération d'un texte ou une conversation en cours). Cela permet une plus grande complexité et un échange plus cohérent et fluide du langage naturel.
Meilleure accessibilité : alors que LLaMa 1 a été publié exclusivement pour une utilisation pour la recherche, Llama 2 est disponible pour toute organisation (comptant moins de 700 millions d'utilisateurs actifs).
Entraînement plus fiable : Llama 2 a été pré-entraîné sur 40 % de données supplémentaires, ce qui a permis d'accroître sa base de connaissances et sa compréhension du contexte. En outre, contrairement à LLaMa 1, les modèles de chat du Llama 2 ont été affinés à l'aide de l'apprentissage par renforcement basé sur les commentaires humains (RLHF), ce qui a permis de mieux adapter les réponses des modèles aux attentes des utilisateurs.

Le magasin de données pour l'IA

Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, avec des améliorations pour dimensionner l’IA et des possibilités d’optimisation des coûts.

Contenu connexe

Obtenir le rapport d'IDC

Llama 2 est-il open source ?

Bien que Meta ait mis le code initial et les pondérations des modèles Llama 2 gratuitement à la disposition de la recherche et de l'utilisation commerciale, certaines restrictions dans son contrat de licence ont suscité un débat sur la question de savoir s'il pouvait être qualifié comme « open source ».

Le débat est quelque peu technique et sémantique : bien que le terme "open source" soit souvent utilisé familièrement pour désigner tout logiciel (ou autre outil de programmation) dont le code source est distribué gratuitement, il s'agit en fait d'une désignation officielle gérée par l'Open Source Initiative (OSI). L'OSI ne certifie une licence logicielle donnée comme étant "approuvée par l'Open Source Initiative" que si elle estime que cette licence répond aux dix exigences énumérées dans la définition officielle de l'Open Source (OSD) (lien externe à ibm.com).

Comme l'explique Stefano Maffulli, directeur exécutif de l'OSI, « L'OSI se réjouit de voir que Meta réduit les coûts d'accès à des systèmes d'IA puissants. Malheureusement, le géant de la technologie a donné à penser que LLaMa 2 était "open source", ce qui n'est pas le cas. » ¹

La divergence provient de deux points du contrat de licence Llama 2 :

Toute organisation comptant plus de 700 millions d'utilisateurs actifs par mois doit demander une licence à Meta (à sa seule discrétion).²
La « politique d'utilisation acceptable » interdit l'utilisation des modèles à des fins de violence, d'activité criminelle et d'usurpation d'identité, entre autres restrictions légales et morales.

Ces restrictions sont en contradiction avec deux points de l'OSD :

Point 5 : « La licence ne doit pas être discriminatoire à l'égard d'une personne ou d'un groupe de personnes. » ³
Point 6 : « La licence ne doit pas empêcher quiconque d'utiliser le programme dans un secteur d'activité spécifique. »³

Pour souligner à la fois de l'esprit open source du Llama 2 et son incapacité à répondre à la définition technique de « open source », certains membres de la communauté technologique ont utilisé le terme d'« approche ouverte ». ⁴

Comment fonctionne Llama 2 ?

Les modèles de base Llama 2 sont des modèles de fondation pré-entraînés destinés à être affinés pour des cas d'utilisation spécifiques, tandis que les modèles de chat Llama 2 sont déjà optimisés pour le dialogue.

Modèles de base Llama 2

Llama 2 est une famille de modèles linguistiques causaux autorégressifs basés sur des transformateurs. Les modèles linguistiques autorégressifs prennent une séquence de mots en entrée et prédisent récursivement en sortie le(s) mot(s) suivant(s).

Durant la phase de pré-entraînementautosupervisé, les LLM reçoivent le début d’exemples de phrases tirées d’un corpus massif de données non étiquetées et sont chargés de prédire le mot suivant. En entraînant le modèle à minimiser la divergence entre la vérité terrain (le mot suivant réel) et ses propres prédictions, le modèle apprend à reproduire des schémas linguistiques et logiques dans les données d’entraînement. Bien que les rapports d’étude ne donnent pas de détails sur les sources de données spécifiques, ils indiquent que Llama 2 a été entraîné avec 2 milliards de jetons, c’est-à-dire des mots, des parties de mots, des phrases et d’autres fragments sémantiques représentés numériquement que les réseaux neuronaux à base de transformateurs utilisent pour le traitement du langage, à partir de sources accessibles au grand public.

À un niveau fondamental, les modèles de fondation de base ne sont pas pré-entraînés pour répondre à une invite : ils y ajoutent du texte de manière grammaticalement cohérente. Un modèle de fondation prêt à l'emploi pourrait répondre à une invite du type « Apprends-moi à faire des cookies » par « pour une fête de fin d'année ». Un affinage supplémentaire, via des techniques telles que l'apprentissage supervisé et l'apprentissage par renforcement, est nécessaire pour entraîner un modèle de fondation pour une application spécifique telle que le dialogue, le suivi d'instructions ou l'écriture créative.

Les modèles de base Llama 2 sont plutôt destinés à servir de fondation pour développer un modèle spécifique pour un usage bien précis. À ce jour, les modèles Llama 2 (et le LLaMa original) ont servi de base à plusieurs LLM open source de premier plan, notamment :

Alpaga : une version de LLaMa 7B affinée pour le suivi des instructions par des chercheurs de l'université de Stanford. Elle a notamment obtenu des résultats compétitifs par rapport à GPT-3.5, bien qu'elle ne coûte que 600 USD en ressources informatiques.⁵
Vicuna : un modèle d'assistant de chat de LMSYS Org, entraîné en affinant Llama 2 13B sur des conversations d'utilisateurs issues de ShareGPT (lien externe à ibm.com). Il a surpassé Alpaca dans plus de 90 % des cas pour un coût de formation de seulement 300 USD.⁶
Orca : une version affinée du Llama 2, entraînée par Microsoft à l'aide d'un schéma « enseignant-étudiant », dans lequel un LLM plus grand et plus puissant est utilisé pour générer des exemples de comportement de raisonnement utile que le modèle plus petit doit suivre.⁷
WizardLM : affiné à l'aide d'Evol-Instruct, une méthode permettant de créer de grandes quantités de données d'instruction synthétiques à l'aide de LLM, WizardLM a offert plus de 90 % des performances de ChatGPT dans 17 des 29 compétences évaluées.⁸

Modèles de chat Llama 2

Les modèles Llama-2-chat sont affinés pour les cas d'utilisation axés sur le dialogue, à l'instar des versions spécifiques du modèle GPT utilisées dans ChatGPT.

L'affinement supervisé (SFT) a été utilisé pour former le modèle de base Llama 2 à générer des réponses dans le format attendu par les utilisateurs lors de l'utilisation d'un chatbot ou d'un agent virtuel. Dans le cadre d'une série de tâches d'apprentissage supervisé, des paires étiquetées d'échanges de type dialogue, annotées (invite, réponse), sont utilisées pour entraîner le modèle à minimiser la divergence entre sa propre réponse pour une invite donnée et l'exemple de réponse fourni par les données étiquetées. Le modèle apprend ainsi, par exemple, que la réponse appropriée à une invite du type « apprends-moi à faire des cookies » est de fournir des instructions précises pour faire des cookies, plutôt que de simplement compléter la phrase.

Plutôt que d'utiliser des millions d'exemples étiquetés, l'article indique que les résultats ont été améliorés en utilisant « moins d'exemples, mais de meilleure qualité », précisant que Meta AI avait collecté 27 540 échantillons annotés.

Après le SFT, Meta a utilisé l'apprentissage par renforcement basé sur les commentaires humains (RLHF) pour adapter davantage le comportement des modèles de chat aux préférences et aux instructions humaines. Dans le cadre du RLHF, le commentaire humain direct est utilisé pour former un « modèle de récompense » afin qu'il puisse « apprendre » les types de réponses que les humains préfèrent. En traduisant les prédictions du modèle de récompense (à savoir si une réponse donnée serait privilégiée ou non par les humains) en un signal de récompense scalaire, le modèle de récompense est ensuite utilisé pour entraîner le Llama-2-chat via l'apprentissage par renforcement.

Il existe de nombreuses méthodes et formats différents pour recueillir les commentaires humains. Il existe de nombreuses méthodes et formats différents pour recueillir les commentaires humains. Meta AI a utilisé une méthode simple de comparaison binaire : les annotateurs humains ont été invités à rédiger une invite, puis à choisir entre deux réponses modélisées, basées sur des critères fournis par Meta, générées par deux variantes différentes du Llama 2. Pour aider le modèle de récompense à pondérer correctement ces choix, les annotateurs ont également été invités à évaluer dans quelle mesure ils préféraient la réponse retenue à l'autre : « significativement meilleure » « légèrement meilleure » ou « à peine meilleure/incertain. »

Les préférences humaines ont été utilisées pour entraîner deux modèles de récompense distincts : l'un optimisé pour la serviabilité, l'autre optimisé pour la sécurité (c'est à dire pour éviter les réponses agressives, haineuses ou les réponses qui pourraient être utilisées pour inciter à la violence ou à l'activité criminelle). En plus de l'optimisation de la politique proximale (PPO), l'algorithme généralement utilisé pour mettre à jour les pondérations du modèle LLM du RLHF, Meta a également utilisé l'échantillonnage par rejet (lien externe à ibm.com) pour mettre à jour le Llama-2-chat-70B.

Code Llama

Code Llama, développé sur Llama 2, a été perfectionné pour générer du code (et du langage naturel sur le code) à partir d'invites basées sur le code et sur le langage naturel. Lancé peu après la sortie des modèles de base et de chat Llama 2, il est gratuit à des fins de recherche et d'utilisation commerciale.

Prenant en charge la plupart des langages de programmation courants, notamment Python, C++, Java, PHP et Javascript (entre autres), il est disponible dans des tailles de modèle de 7, 13 et 34B de paramètres, et offre une longueur de contexte allant jusqu'à 100 000 jetons. Deux autres variantes, Code Llama - Python et Code Llama - Instruct, sont respectivement conçues pour Python (et PyTorch) et pour le suivi d'instructions.

Llama 2 vs. modèles à code source fermé

Par rapport à leurs concurrents à source fermée, les modèles Llama 2 excellent dans des domaines tels que la sécurité et l'exactitude des faits. Bien que Llama 2 ne puisse pas rivaliser avec des modèles beaucoup plus grands, sa disponibilité ouverte et sa meilleure efficacité présentent des avantages uniques.

En comparant Llama 2 aux modèles propriétaires phares de concurrents tels que OpenAI, Anthropic et Google, il est important de tenir compte de l'échelle. Bien que les modèles à source fermée ne divulguent pas toujours tous les détails de leur architecture, les informations disponibles suggèrent fortement qu'ils dépassent tous largement les 70 milliards de paramètres des plus grands modèles Llama 2 :

GPT-3 a 175 milliards de paramètres.
On estime que le GPT-4 a 1 000 milliards de paramètres.⁹
Le PaLM 2 de Google aurait 340 milliards de paramètres.¹⁰ Son prédécesseur, le PaLM, a 540 milliards de paramètres.¹¹
Anthropic n'a pas publié le nombre de paramètres des modèles Claude, mais un article récent suggère l'existence d'une version à 175 milliards de paramètres pour Claude 2.¹²
.

Évaluation humaine
Selon le rapport de recherches sur Llama 2, les évaluateurs humains ont préféré les réponses du Llama-2-chat 70B à celles de GPT-3.5.-turbo-0301, le modèle standard de ChatGPT : les réponses du Llama 2 ont enregistré un taux de victoire de 36 % et un taux d'égalité de 31,5 %. Comparativement à PaLM Bison, le deuxième plus grand modèle PaLM, 70B avait un taux de victoire de plus de 50 %.

Sécurité
Lors des tests effectués par Meta, les modèles 7B, 13B et 70B du Llama 2 présentaient tous des pourcentages de manquements à la sécurité nettement inférieurs à ceux du PaLM Bison, 3 % et 4 %, contre 27 % pour le PaLM. Ils présentaient également des pourcentages de manquements à la sécurité inférieurs à ceux de ChatGPT, qui s'élevaient à 7 %. Il s'agit d'un atout majeur pour les cas d'utilisation en entreprise, dans lesquels le langage agressif, haineux ou provocateur des chatbots peut avoir des conséquences désastreuses.

Confidentialité et efficacité
L'un des avantages inhérents aux modèles open source de petite taille par rapport aux modèles massifs à code source fermé est la liberté qu'ont les entreprises d'exploiter des instances de modèles locaux et la rentabilité de ces instances sans investissements massifs dans l'infrastructure ou le cloud computing. L'exécution d'un modèle local garantit que le code propriétaire, les modifications d'entraînement et les données propriétaires peuvent être utilisés pour affiner les performances du modèle sans être chargés sur un serveur commercial ou potentiellement utilisés pour l'entraînement futur de modèles à source fermée. En outre, les modèles de plus petite taille, comme les variantes 7B et 13B, permettent des performances plus fluides dans des environnements tels que les applications mobiles, où la puissance de traitement est limitée.

Comment utiliser Llama 2

Llama 2 n'a pas d'API propre, mais il est accessible par l'intermédiaire de plusieurs fournisseurs.

Llama-2-13B-chat et Llama-2-70B-chat font partie des nombreux modèles de fondations disponibles dans watsonx, grâce au partenariat d'IBM avec Hugging Face.
Les pondérations de modèles et le code initial du Llama 2 peuvent être téléchargés directement sur Github, où Meta fournit également des instructions, démonstrations et « recettes » pour le Llama 2 (lien externe à ibm.com). Les modèles peuvent être mis en œuvre dans des cadres de machine learning open source comme PyTorch ou LangChain.
Llama 2 est également disponible auprès de fournisseurs de logiciels open source tels que Hugging Face et de fournisseurs d'entreprises tels que Microsoft Azure et Amazon Sagemaker et Bedrock, en plus d'un certain nombre de startups basées sur le cloud.

Solutions connexes

IBM watsonx.ai

Entraînez, validez, ajustez et déployez en toute facilité des capacités d’IA générative et de machine learning ainsi que des modèles de fondation, et créez des applications d’IA beaucoup plus rapidement, avec seulement une fraction des données disponibles.

Découvrir watsonx.ai

IBM watsonx Assistant

Offrez une assistance client cohérente et intelligente sur tous les canaux et points de contact grâce à l’IA conversationnelle.

Découvrez IBM watsonx Assistant

Services de conseil en IA

Repensez votre façon d’exploiter l’IA : pour votre sérénité, notre équipe internationale diverse de plus de 20 000 experts en IA vous accompagnera dans la création et la mise à l’échelle de vos projets d’IA et d’automatisation. Alliant rapidité, éthique et fiabilité, vous vous appuierez sur notre technologie IBM watsonx et sur un écosystème de partenaires ouvert, pour assurer la livraison du modèle d’IA de votre choix, quel que soit le cloud utilisé.

Découvrez les services de conseil en IA proposés par IBM

Ressources sur Llama 2

En savoir plus sur Llama 2 et sur le thème plus général des modèles de fondation.

Modèles de fondation

Les modèles modernes d'IA qui exécutent des tâches spécifiques dans un seul domaine cèdent la place à une IA qui apprend de manière plus générale et fonctionne dans tous les domaines et pour toutes sortes de problèmes. Découvrez pourquoi les modèles de fondation, formés sur de vastes ensembles de données non étiquetées et adaptés à toute une série de cas d’utilisation, sont à l’origine de cette évolution.

Comment IBM adapte l’IA générative pour les entreprises

Découvrez comment IBM développe des modèles de fondation générative fiables, économes en énergie et portables, permettant aux entreprises de déplacer les workloads d'IA de manière transparente entre les clouds publics et privés.

Qu'est-ce que l'alignement des IA ?

Découvrir le processus d'encodage des valeurs et des objectifs humains dans de grands modèles de langage afin de les rendre aussi utiles, sûrs et fiables que possible. Grâce à l'alignement, les entreprises peuvent adapter les modèles d'IA pour qu'ils respectent leurs règles et politiques commerciales.

Passer à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo en direct

Notes de bas de page