Was ist Lllama 2?

Veröffentlicht: 19. Dezember 2023
Mitwirkende: Dave Bergmann

Was ist Lllama 2?

Lllama 2 ist eine Familie vorab trainierter und feinabgestimmter großer Sprachmodelle (LLMs), die 2023 von Meta AI veröffentlicht wurde. Die KI-Modelle von Llama 2, die kostenlos für Forschung und kommerzielle Nutzung zur Verfügung gestellt werden, können eine Vielzahl von Aufgaben zur Verarbeitung natürlicher Sprache (NLP) bewältigen, von der Texterstellung bis zur Programmierung von Code.

Die Lllama-2-Modellfamilie, die sowohl Basismodelle als auch feinabgestimmte „Chat“-Modelle bietet, ist der Nachfolger der ursprünglichen Lllama-1-Modelle, die im Jahr 2022 unter einer nichtkommerziellen Lizenz veröffentlicht wurden. Der Zugang zu Lllama 1 wurde ausschließlich einzeln für Forschungseinrichtungen ermöglicht. Im Gegensatz zu ihren Vorgängern stehen die Lllama-2-Modelle sowohl für die KI-Forschung als auch für die kommerzielle Nutzung kostenlos zur Verfügung.

Die Lllama-Modelle von Meta zielen daher darauf ab, das generative KI-Ökosystem zu demokratisieren. Wie im Lllama-2-Forschungspapier (Link befindet sich außerhalb von ibm.com) beschrieben, ist die Methode für das Pre-Training autoregressiver LLMs durch selbstüberwachtes Lernen inzwischen zwar relativ einfach und gut verstanden. Die immensen Rechenleistungsanforderungen, die dieser Prozess mit sich bringt, beschränken die Entwicklung hochmoderner LLMs jedoch weitgehend auf einige wenige wichtige Akteure. Da es sich bei den meisten hochmodernen LLMs wie OpenAIs GPT, Anthropics Claude und Googles BARD um proprietäre (und riesige) Closed-Source-Modelle handelt, ist der öffentliche Zugang zur KI-Forschung sehr beschränkt. Ein solcher Zugang könnte jedoch helfen zu verstehen, wie und warum diese Modelle so funktionieren, wie sie es tun, und wie man ihre Entwicklung besser mit menschlichen Interessen in Einklang bringen kann.

Zusätzlich zur freien Verfügbarkeit des Codes und der Modellgewichte hat sich das Lllama-Projekt darauf konzentriert, die Leistungsfähigkeit kleinerer Modelle zu verbessern, anstatt die Anzahl der Parameter zu erhöhen. Während die meisten bekannteren Closed-Source-Modelle Hunderte Milliarden Parameter aufweisen, werden Lllama-2-Modelle mit sieben Milliarden (7B), 13 Milliarden (13B) oder 70 Milliarden Parametern (70B) angeboten.

Dadurch können auch kleinere Organisationen wie Start-ups und Forscher lokale Instanzen von Lama-2-Modellen – oder Lllama-basierten Modellen, die von der KI-Community entwickelt wurden – bereitstellen, ohne dass unerschwinglich teure Rechenleistung oder Infrastrukturinvestitionen benötigt werden.

Erfahren Sie mehr: IBM macht Llama 2 innerhalb seiner Watsonx KI- und Datenplattform verfügbar

Lllama 2 oder Lllama 1

Das Forschungspapier zu Lllama 2 beschreibt mehrere Vorteile, die die neuere Generation von KI-Modellen gegenüber den ursprünglichen Lllama-Modellen bietet.

Größere Kontextlänge: Lllama-2-Modelle bieten eine Kontextlänge von 4.096 Token – doppelt so lang wie die von Lllama 1. Die Kontextlänge (oder das Kontextfenster) bezieht sich auf die maximale Anzahl von Token, die sich das Modell während der Inferenz (d. h. der Generierung von Text oder eines laufenden Gesprächs) „merken“ kann. Dies ermöglicht eine größere Komplexität und einen kohärenteren, flüssigeren Austausch in natürlicher Sprache.
Bessere Zugänglichkeit: Während Llama 1 ausschließlich für Forschungszwecke veröffentlicht wurde, steht Llama 2 jeder Organisation (mit weniger als 700 Millionen aktiven Benutzern) zur Verfügung.
Robusteres Training: Llama 2 wurde mit 40 % mehr Daten trainiert, wodurch seine Wissensbasis und sein kontextbezogenes Verständnis verbessert wurden. Darüber hinaus wurden die Chat-Modelle von Lllama 2 im Gegensatz zu Lllama 1 mithilfe von verstärkendem Lernen mit menschlichem Feedback (RLHF) feinabgestimmt, um die Antworten des Modells näher an die menschlichen Erwartungen zu bringen.

Der Datenspeicher für KI

Erfahren Sie, wie wirkungsvoll die Integration einer Data-Lakehouse-Strategie in Ihre Datenarchitektur sein kann, einschließlich Verbesserungen zur Skalierung von KI und Möglichkeiten zur Kostenoptimierung.

Ähnliche Inhalte

Registrieren und IDC-Bericht lesen

Ist Llama 2 Open Source?

Obwohl Meta den Startcode und die Modellgewichte für die Llama-2-Modelle für die Forschung und die kommerzielle Nutzung frei zugänglich gemacht hat, haben bestimmte Einschränkungen in der Lizenzvereinbarung eine Debatte darüber ausgelöst, ob das Modell wirklich als „Open Source“ bezeichnet werden kann.

Die Debatte ist eher technischer und semantischer Natur: Obwohl „Open Source“ umgangssprachlich oft für jede Software (oder andere Programmierwerkzeuge) verwendet wird, deren Quellcode kostenlos zugänglich ist, ist es eigentlich eine formale Bezeichnung, die von der Open Source Initiative (OSI) verwaltet wird. Die OSI zertifiziert eine bestimmte Softwarelizenz nur dann als „Open Source Initiative approved“, wenn es der Ansicht ist, dass diese Lizenz die zehn in der offiziellen Open-Source-Definition (OSD) aufgeführten Anforderungen erfüllt (Link befindet sich außerhalb von ibm.com).

In einer Erklärung des Executive Director der OSI Stefano Maffulli heißt es: „OSI ist erfreut darüber, dass Meta die Hürden für den Zugang zu leistungsstarken KI-Systemen senkt. Leider hat der Tech-Gigant missverständlicherweise den Eindruck erweckt, Lllama 2 sei ‚Open Source‘ – das ist es nicht.“ ¹

Dieser Widerspruch ergibt sich aus zwei Punkten der Llama-2-Lizenzvereinbarung:

Jede Organisation mit mehr als 700 Millionen aktiven Benutzern pro Monat muss bei Meta eine Lizenz beantragen (die nach eigenem Ermessen von Meta gewährt wird).²
Die „Richtlinien für die akzeptable Nutzung“ untersagen die Nutzung der Modelle für Gewalt, kriminelle Aktivitäten und die Nachahmung von Menschen. Darüber hinaus gelten andere rechtliche und moralische Einschränkungen.

Diese Einschränkungen widersprechen zwei Punkten der OSD:

Punkt 5: „Die Lizenz darf keine Person oder Personengruppe diskriminieren.“ ³
Punkt 6: „Die Lizenz darf niemanden daran hindern, das Programm in einem bestimmten Bereich zu verwenden.^{“ 3}

Um sowohl die Idee der Offenheit von Llama 2 als auch seine Nichtkonformität mit der technischen Definition von Open Source anzuerkennen, haben einige in der Tech-Community den Begriff „Open Approach“ (zu Dt. „offener Ansatz“) eingeführt. ⁴

Wie funktioniert Llama 2?

Die Llama-2-Basismodelle sind vortrainierte Foundation Models, die für spezifische Anwendungsfälle feinabgestimmt werden sollen. Die Llama-2-Chatmodelle sind hingegen bereits für Dialoge optimiert.

Llama-2-Basismodelle

Lllama 2 ist eine Familie von Transformer-basierten autoregressiven kausalen Sprachmodellen. Autoregressive Sprachmodelle nehmen eine Folge von Wörtern als Eingabe und sagen rekursiv das nächste Wort bzw. die nächsten Wörter als Ausgabe voraus.

Während des selbstüberwachten Pre-Trainings erhalten LLMs den Anfang von Beispielsätzen, die aus einem riesigen Korpus ungekennzeichneter Daten stammen, und sollen daraus das nächste Wort vorhersagen. Indem das Modell darauf trainiert wird, die Abweichung zwischen der Ground Truth (dem tatsächlichen nächsten Wort) und den eigenen Vorhersagen zu minimieren, lernt es, linguistische und logische Muster in den Trainingsdaten zu replizieren. Obwohl das Forschungspapier keine Details über spezifische Datenquellen enthält, wird darin beschrieben, dass Lllama 2 mit 2 Billionen Token aus öffentlich zugänglichen Quellen trainiert wurde – also mit numerisch dargestellten Wörtern, Wortteilen, Phrasen und anderen semantischen Fragmenten, die transformatorbasierte neuronale Netze für die Sprachverarbeitung verwenden.

Grundsätzlich sind die Basismodelle nicht darauf trainiert, eine Prompt tatsächlich zu beantworten: Sie fügen vielmehr den Text in einer grammatikalisch passenden Weise an. Ein Foundation Model in seiner grundlegenden Form könnte auf die Prompt „Bring mir bei, wie man Plätzchen backt“ mit „für eine Weihnachtsfeier“ antworten.Eine weitere Feinabstimmung mit Hilfe von Techniken wie überwachtem Lernen und verstärkendem Lernen ist erforderlich, um ein Foundation Model für bestimmte Anwendungen wie Gespräche, das Befolgen von Anweisungen oder kreatives Schreiben zu trainieren.

Vielmehr sollen die Lllama-2-Modelle als Grundlage für den Entwicklung zweckspezifischer Modelle dienen. Bislang wurden Lllama-2-Modelle (und die ursprünglichen Lllama-Modelle) als Basis für mehrere bekannte Open-Source-LLMs verwendet, darunter:

Alpaka: Eine Version von Lllama 7B, die durch Forscher der Stanford University für die Befolgung von Anweisungen optimiert wurde. Bemerkenswert ist, dass es Ergebnisse erzielte, die mit GPT-3.5 konkurrieren konnten, obwohl es nur 600 US-Dollar an Rechenressourcen kostete.⁵
Vicuna: Ein Chat-Assistent-Modell von LMSYS Org, trainiert durch Feinabstimmung von Lllama 2 13B auf Benutzergespräche von ShareGPT (Link befindet sich außerhalb von ibm.com). Es übertraf Alpaca in über 90 % der Fälle, obwohl das Training nur 300 USD gekostet hat.⁶
Orca: Eine feinabgestimmte Version von Lllama 2, die von Microsoft nach einem „Lehrer-Schüler“-Schema trainiert wurde, bei dem ein größeres, leistungsfähigeres LLM verwendet wird, um Beispiele für nützliches Denkverhalten zu erzeugen, denen das kleinere Modell folgen kann^.7
WizardLM: Dieses Modell wurde feinabgestimmt mit Evol-Instruct, einer Methode zur Erstellung großer Mengen synthetischer Anweisungsdaten unter Verwendung von LLMs. Es erreichte in 17 von 29 bewerteten Skills mehr als 90 % der Leistung von ChatGPT^.8

Llama-2-Chatmodelle

Lllama-2-Chat-Modelle sind auf dialogorientierte Anwendungsfälle feinabgestimmt, ähnlich wie die spezifischen GPT-Modellversionen, die in ChatGPT verwendet werden.

Überwachte Feinabstimmung (SFT, supervised fine tuning) wurde verwendet, um das vorab trainierte Lllama-2-Basismodell vorzubereiten, damit es Antworten in dem Format generiert, das Benutzer von einem Chatbot oder einem virtuellen Agenten erwarten. In einer Reihe von überwachten Lernaufgaben werden markierte Paare von Dialogen (Prompt, Antwort) verwendet, um das Modell so zu trainieren, dass es die Divergenz zwischen seiner eigenen Antwort auf eine bestimmte Prompt und der Beispielantwort aus den gekennzeichneten Daten minimiert. So lernt das Modell zum Beispiel, dass die richtige Antwort auf die Prompt „Bring mir bei, wie man Kekse backt“ darin besteht, konkrete Anweisungen zum Backen von Keksen zu geben, anstatt den Satz zu vervollständigen.

Anstatt Millionen beschrifteter Beispiele zu verwenden, wurden die Ergebnisse durch „weniger, aber qualitativ hochwertigere Beispiele“ verbessert, wobei Meta AI 27.540 gekennzeichnete Beispiele sammelte.

Im Anschluss an das SFT nutzte Meta verstärkendes Lernen mit menschlichem Feedback (RLHF, reinforcement learning with human feedback), um das Verhalten der Chat-Modelle noch näher an menschliche Vorlieben und Anweisungen zu bringen. Bei RLHF wird direktes menschliches Feedback verwendet, um ein „Belohnungsmodell“ zu trainieren, damit es Muster für die Art von Reaktionen lernt, die Menschen bevorzugen. Die Vorhersagen des Belohnungsmodells (ob eine bestimmte Reaktion von Menschen bevorzugt wird) werden in ein skalares Belohnungssignal umgewandelt. Das Belohnungsmodell wird dann verwendet, um Lllama-2-chat durch verstärkendes Lernen weiter zu trainieren.

Es gibt viele verschiedene Methoden und Formate, in denen menschliches Feedback erfasst werden kann. Meta AI verwendete eine einfache Methode des binären Vergleichs: menschliche Kommentatoren wurden gebeten, eine Prompt zu schreiben und dann zwischen zwei Antworten des Modells zu wählen, die von zwei verschiedenen Varianten von Lllama 2 erzeugt wurden – anhand der Kriterien von Meta. Um dem Belohnungsmodell zu helfen, diese Auswahl richtig zu gewichten, wurden die Kommentatoren auch gebeten, zu bewerten, inwieweit sie die von ihnen gewählte Antwort der anderen vorziehen: „deutlich besser“, „etwas besser“ oder „unwesentlich besser/nicht sicher“.

Anhand der von Menschen bevorzugten Ausgaben wurden zwei separate Belohnungsmodelle trainiert: eines, das auf Hilfsbereitschaft, und ein anderes, das auf Sicherheit optimiert ist (d. h. Vermeiden toxischer, hasserfüllter Antworten oder Reaktionen, die für gewalttätige oder kriminelle Aktivitäten genutzt werden könnten). Zusätzlich zur proximalen Richtlinienoptimierung (PPO), dem Algorithmus, der normalerweise für Updates der LLM-Modellgewichtungen im RLHF verwendet wird, verwendete Meta auch Ablehnungsstichproben (Link befindet sich außerhalb ibm.com) für sein Update von Llama-2-chat-70B.

Code Llama

Code Lllama, das auf Lllama 2 aufbaut, ist auf die Generierung von Code (und natürlicher Sprache über Code) sowohl aus codebasierten Prompts als auch aus Prompts in natürlicher Sprache abgestimmt. Es wurde kurz nach der Veröffentlichung der Basis- und Chat-Modelle von Llama 2 eingeführt und ist für Forschung und kommerzielle Nutzung kostenlos.

Lllama 2 Unterstützt die meisten gängigen Programmiersprachen, darunter Python, C++, Java, PHP und Javascript (unter anderem), und ist in Modellgrößen von 7B, 13B und 34B Parametern verfügbar. Es bietet eine Kontextlänge von bis zu 100.000 Token. Zwei weitere Varianten, Code Llama – Python und Code Llama – Instruct, sind auf Python (und PyTorch) bzw. auf das Befolgen von Anweisungen abgestimmt.

Llama 2 im Vergleich zu Closed-Source-Modellen

Im Vergleich zu seinen Closed-Source-Konkurrenten sind die Llama-2-Modelle in Bereichen wie Sicherheit und faktischer Genauigkeit hervorragend. Auch wenn Llama 2 nicht die volle Leistungsfähigkeit wesentlich größerer Modelle erreicht, bieten seine offene Verfügbarkeit und seine größere Effizienz einzigartige Vorteile.

Beim Vergleich von Lllama 2 mit den proprietären Flaggschiffmodellen der Konkurrenz, etwa von OpenAI, Anthropic und Google, muss man unbedingt ihre Größe berücksichtigen. Obwohl die Closed-Source-Modelle nicht immer alle Details ihrer Architektur offenlegen, deuten die verfügbaren Informationen stark darauf hin, dass sie alle die 70 Milliarden Parameter der größten Lllama-2-Modelle bei weitem übertreffen:

GPT-3 hat 175 Milliarden Parameter.
GPT-4 hat vermutlich 1 Billion Parameter.⁹
Googles PaLM 2 soll über 340 Milliarden Parameter verfügen.¹⁰ Sein Vorgänger PaLM verfügt über 540 Milliarden Parameter.¹¹
Anthropic hat noch keine Parameterzahlen für Claude-Modelle veröffentlicht, aber eine kürzlich erschienene Studie deutet auf die Existenz einer Version von Claude 2 mit 175 Milliarden Parametern hin.¹²

Menschliche Bewertung
Laut dem Lllama-2-Forschungspapier bevorzugten menschliche Bewerter die Antworten von Lllama-2-chat 70B gegenüber denen von GPT-3.5-turbo-0301, dem Standardmodell für ChatGPT: Die Antworten von Lllama 2 wurden in 36 % der Fälle bevorzugt, mit einem Unentschieden in 31,5 % der Fälle. Im Vergleich zu PaLM Bison, dem zweitgrößten PaLM-Modell, hatte 70B eine Erfolgsrate von über 50 %.

Sicherheit
Bei den Tests von Meta wiesen die Modelle 7B, 13B und 70B von Lllama 2 alle einen deutlich geringeren Prozentsatz an Sicherheitsverletzungen auf als PaLM Bison – 3 % und 4 % im Vergleich zu 27 % bei PaLM – sowie einen geringeren Prozentsatz an Sicherheitsverletzungen als ChatGPT mit 7 %. Das ist ein großer Vorteil für Anwendungsfälle in Unternehmen, in denen toxische, hasserfüllte oder unruhestiftende Sprache von Chatbots schlimme Folgen haben kann.

Datenschutz und Effizienz
Ein inhärenter Vorteil kleinerer, offener Modelle gegenüber massiven Closed-Source-Modellen ist die Freiheit für Unternehmen, lokale Modellinstanzen auszuführen, und die Kosteneffizienz, dies ohne große Investitionen in Infrastruktur oder Cloud-Computing zu tun. Die Ausführung eines lokalen Modells stellt sicher, dass proprietärer Code, Trainingsanpassungen und firmeneigene Daten zur Feinabstimmung der Modellleistung verwendet werden können, ohne dass sie auf einen kommerziellen Server geladen oder möglicherweise für das zukünftige Training von Closed-Source-Modellen verwendet werden. Darüber hinaus ermöglichen kleinere Modellgrößen, wie die 7B- und 13B-Varianten, eine flüssigere Leistung in Umgebungen wie mobilen Apps, in denen die Rechenleistung begrenzt ist.

Verwendung von Llama 2

Llama 2 hat keine eigene dedizierte API, ist aber über mehrere Anbieter zugänglich.

Llama-2-13B-Chat und Llama-2-70B-Chat gehören zu den vielen Foundation Models, die in watsonx durch die Partnerschaft von IBM mit Hugging Face verfügbar sind.
Modellgewichte und Startcode für Llama 2 können direkt von Github heruntergeladen werden, wo Meta auch Anweisungen, Demos und „Rezepte“ für Llama 2 bereitstellt (Link befindet sich außerhalb von ibm.com). Die Modelle können in Open-Source-Frameworks für maschinelles Lernen wie PyTorch oder LangChain implementiert werden.
Lllama 2 ist sowohl bei Open-Source-Anbietern wie Hugging Face als auch bei Unternehmensanbietern wie Microsoft Azure, Amazon Sagemaker und Bedrock sowie bei einer Reihe von cloudbasierten Start-ups erhältlich.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.

watsonx.ai erkunden

IBM watsonx Assistant

Stellen Sie mit dialogorientierter KI einen konsistenten, intelligenten Kundenservice über alle Kanälen und Kontaktpunkten bereit.

IBM® watsonx Assistant kennenlernen

KI-Beratungsleistungen

Stellen Sie sich die Art und Weise, wie Sie mit KI arbeiten, neu vor: Unser vielfältiges, globales Team von mehr als 20.000 KI-Experten kann Ihnen dabei helfen, KI und Automatisierung in Ihrem Unternehmen schnell und sicher zu entwerfen und zu skalieren, indem es mit unserer eigenen IBM watsonx-Technologie und einem offenen Ökosystem von Partnern arbeitet, um jedes KI-Modell in jeder Cloud bereitzustellen, geleitet von Ethik und Vertrauen.

Entdecken Sie unsere IBM KI-Beratungsleistungen

Llama-2-Ressourcen

Erfahren Sie mehr über Llama 2 und das Thema Foundation Models insgesamt.

Basismodelle

Moderne KI-Modelle, die spezifische Aufgaben in einem einzigen Bereich ausführen, werden langsam durch jene ersetzt, die allgemeiner lernen und bereichs- und problemübergreifend arbeiten. Erfahren Sie, wie Foundation Models, die auf großen, ungekennzeichneten Datensätzen trainiert und auf eine Reihe von Anwendungen feinabgestimmt werden, diesen Wandel vorantreiben.

So gestaltet IBM maßgeschneiderte KI für Unternehmen

Erfahren Sie, wie IBM generative Foundation Models entwickelt, die vertrauenswürdig, energieeffizient und portabel sind und mit denen Unternehmen KI-Workloads nahtlos zwischen öffentlichen und privaten Clouds verlagern können.

Was ist KI-Alignment?

Entdecken Sie, wie sich menschliche Werte und Ziele in große Sprachmodelle kodieren lassen, um diese so hilfreich, sicher und zuverlässig wie möglich zu machen. Durch das Alignment können Unternehmen KI-Modelle so anpassen, dass sie ihren Geschäftsregeln und -richtlinien folgen.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden

Buchen Sie eine Live-Demo

Fußnoten