Startseite topics Feinabstimmung Was ist Feinabstimmung?
Feinabstimmung von Modellen mit watsonx.ai Abonnieren Sie KI-Updates
Illustration mit Collage aus Piktogrammen von Wolken, Kreisdiagramm, Diagrammpiktogrammen

Veröffentlicht: 15. März 2024
Mitwirkende: Dave Bergmann

Was ist Feinabstimmung?

Die Feinabstimmung beim maschinellem Lernen ist der Prozess der Anpassung eines vorab trainierten Modells für bestimmte Aufgaben oder Anwendungsfälle. Dieser Prozess hat sich zu einer grundlegenden Deep-Learning-Technik entwickelt, insbesondere im Trainingsprozess von Foundation Models, die für generative KI verwendet werden.

Die Feinabstimmung kann als ein Teilbereich der umfassenderen Technik des Transferlernens betrachtet werden: Dabei handelt es sich um die Praxis, das bereits erworbene Wissen eines vorhandenen Modells als Ausgangspunkt für das Erlernen neuer Aufgaben zu nutzen.

Hinter der Feinabstimmung steht die Idee, dass es im Grunde einfacher und günstiger ist, die Fähigkeiten eines vorab trainierten Basismodells zu verbessern, das bereits umfassende, für die jeweilige Aufgabe relevante Dinge erlernt hat, als ein neues Modell von Grund auf für diesen speziellen Zweck zu trainieren. Dies gilt insbesondere für Deep-Learning-Modelle mit Millionen oder gar Milliarden von Parametern, wie etwa die großen Sprachmodelle (LLMs), die im Bereich der Verarbeitung natürlicher Sprache (NLP) an Bedeutung gewonnen haben, oder die komplexen Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs), die für Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung oder Bildsegmentierung verwendet werden.

Durch die Nutzung von vorherigem Modelltraining mittels Transferlernen kann die Feinabstimmung die Menge an teurer Rechenleistung und gekennzeichneten Daten reduzieren, die benötigt wird, um große Modelle zu erhalten, die auf Nischenanwendungsfälle und Geschäftsanforderungen zugeschnitten sind. Mithilfe der Feinabstimmung lässt sich beispielsweise einfach der Gesprächston eines vorab trainierten LLM oder der Illustrationsstil eines vorab trainierten Bildgenerierungsmodells anpassen. Sie kann auch dazu verwendet werden, Erkenntnisse aus dem ursprünglichen Trainingsdatensatz eines Modells durch proprietäre Daten oder spezielles, domänenspezifisches Wissen zu ergänzen.

Die Feinabstimmung spielt daher eine wichtige Rolle bei der Anwendung von Modellen für maschinelles Lernen in der Praxis und trägt dazu bei, den Zugang zu und die Anpassung von anspruchsvollen Modellen zu demokratisieren.

Generative KI und ML für Unternehmen

Dieses E-Book beschreibt, wie Unternehmen vertrauensvoll generative KI und maschinelles Lernen in ihr Geschäft einbinden können, um einen bedeutenden Wettbewerbsvorteil zu erlangen.

Ähnliche Inhalte

Registrieren Sie sich, um den Leitfaden zu Foundation Models zu lesen

Feinabstimmung und Training im Vergleich

Die Feinabstimmung ist zwar vordergründig eine Technik, die beim Modelltraining verwendet wird, aber sie ist ein anderer Prozess als das, was man gemeinhin als „Training“ bezeichnet. Der Einfachheit halber bezeichnen Data Scientist letzteres in diesem Zusammenhang üblicherweise als Vortraining.

Vortraining

Zu Beginn des Trainings (oder, in diesem Zusammenhang, des Vortrainings) hat das Modell noch nichts „gelernt“. Das Training beginnt mit einer zufälligen Initialisierung der Modellparameter, d. h. der unterschiedlichen Gewichtungen und Bias, die auf die mathematischen Operationen an den einzelnen Knoten im neuronalen Netz angewendet werden.

Das Training erfolgt iterativ in zwei Phasen: In einem Vorwärtsdurchlauf trifft das Modell Vorhersagen für eine Reihe von Eingabebeispielen aus dem Trainingsdatensatz und eine Verlustfunktion misst die Differenz (oder den Verlust) zwischen den Vorhersagen des Modells für jede Eingabe und den „richtigen“ Antworten (oder der „Ground Truth“). Während der Backpropagation wird ein Optimierungsalgorithmus – typischerweise der Gradientenabstieg – verwendet, um die Modellgewichtungen im gesamten Netz anzupassen und so den Verlust zu reduzieren. Durch diese Anpassungen der Modellgewichtungen „lernt“ das Modell. Dieser Prozess wird über mehrere Trainingsepochen hinweg wiederholt, bis das Modell als ausreichend trainiert angesehen wird.

Herkömmliches überwachtes Lernen, das in der Regel für das Vortraining von Modellen für Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung oder Bildsegmentierung genutzt wird, verwendet gekennzeichnete Daten: Kennzeichnungen (oder Anmerkungen) liefern sowohl den Bereich der möglichen Antworten als auch den Ground-Truth-Output für jede Stichprobe.

LLMs werden in der Regel durch selbstüberwachtes Lernen (Self-Supervised Learning, SSL) vortrainiert. Dabei lernen die Modelle durch Vorwandaufgaben, die dazu dienen, aus der inhärenten Struktur der ungekennzeichneten Daten die Ground Truth abzuleiten. Diese Vorwandaufgaben vermitteln Wissen, das für nachgelagerte Aufgaben nützlich ist. Sie verfolgen in der Regel einen von zwei Ansätzen:

  • Selbstprognose: Ein Teil der ursprünglichen Eingabe wird maskiert und das Modell beauftragt, sie zu rekonstruieren. Dies ist die vorherrschende Trainingsart für LLMs.

  • Kontrastives Lernen: Training von Modellen, die ähnliche Einbettungen für verwandte Eingaben und unterschiedliche Einbettungen für nicht verwandte Eingaben lernen. Dies wird vor allem in Computer-Vision-Modellen verwendet, die für Few-Shot- oder Zero-Shot-Learning entwickelt wurden, wie Contrasting Language-Image Pretraining (CLIP).

SSL ermöglicht somit die Verwendung enorm großer Datensätze im Training, ohne dass Millionen oder Milliarden von Datenpunkten annotiert werden müssen. Das spart eine Menge Arbeit, erfordert aber auch enorme Rechenressourcen.

Feinabstimmung

Umgekehrt umfasst die Feinabstimmung Techniken zum weiteren Training eines Modells, dessen Gewichtungen bereits durch das Vortraining aktualisiert wurden. Die Feinabstimmung nutzt das Vorwissen des Basismodells als Ausgangspunkt und passt das Modell an, indem es mit einem kleineren, aufgabenspezifischen Datensatz trainiert wird.

Obwohl dieser aufgabenspezifische Datensatz theoretisch für das anfängliche Training verwendet werden könnte, besteht beim Training eines großen Modells von Grund auf anhand eines kleinen Datensatzes die Gefahr der Überanpassung: Das Modell könnte lernen, bei den Trainingsbeispielen gut abzuschneiden, aber die Generalisierung bei neuen Daten ist schlecht. Damit wäre das Modell für seine Aufgabe nicht mehr geeignet und der Zweck des Modelltrainings wäre verfehlt.

Die Feinabstimmung bietet somit das Beste aus beiden Welten: die Nutzung des umfassenden Wissens und der Stabilität, die durch das Vortraining anhand einer großen Datenmenge gewonnen wurden, und die Verfeinerung des Verständnisses des Modells für detailliertere, spezifische Konzepte. Angesichts der zunehmenden Leistungsfähigkeit von Open-Source-Foundation-Models können diese Vorteile oft ohne den finanziellen, rechnerischen oder logistischen Aufwand des Vortrainings genutzt werden.

Wie funktioniert die Feinabstimmung?

Bei der Feinabstimmung werden die Gewichtungen eines vorab trainierten Modells als Ausgangspunkt für das weitere Training anhand eines kleineren Datensatzes mit Beispielen verwendet, die die spezifischen Aufgaben und Anwendungsfälle, für die das Modell genutzt wird, direkter widerspiegeln. Es beinhaltet typischerweise überwachtes Lernen, kann aber auch verstärkendes Lernen, selbstüberwachtes Lernen oder halbüberwachtes Lernen umfassen.

Die für die Feinabstimmung verwendeten Datensätze vermitteln das spezifische Domänenwissen, den Stil, die Aufgaben oder die Anwendungsfälle, für die das vorab trainierte Modell optimiert wird. Hier sind einige Beispiele: 

  • Ein LLM, das für eine allgemeine Sprache trainiert wurde, könnte mit einem neuen Datensatz, der relevante Programmieranfragen und entsprechende Code-Snippets enthält, für die Codierung feinabgestimmt werden.

  • Ein Bildklassifizierungsmodell, das zur Identifizierung bestimmter Vogelarten verwendet wird, kann anhand zusätzlicher gekennzeichneter Trainingsproben neue Arten erlernen.

  • Ein LLM kann durch selbstüberwachtes Lernen anhand von Beispieltexten, die diesen Stil repräsentieren, lernen, einen bestimmten Schreibstil zu emulieren.

Halbüberwachtes Lernen, eine Untergruppe des maschinellen Lernens, die sowohl gekennzeichnete als auch nicht gekennzeichnete Daten einbezieht, ist von Vorteil, wenn das Szenario überwachtes Lernen erfordert, aber nur wenige geeignete gekennzeichnete Beispiele vorhanden sind. Halbüberwachte Feinabstimmung hat sowohl für Aufgaben im Bereich Computer Vision1 als auch für NLP2 vielversprechende Ergebnisse gezeigt und trägt dazu bei, den Aufwand für die Beschaffung einer ausreichenden Menge an gekennzeichneten Daten zu verringern.

Durch Feinabstimmung können die Gewichtungen des gesamten Netzes aktualisiert werden. Aus praktischen Gründen ist dies jedoch nicht immer der Fall. Es gibt eine Vielzahl alternativer Feinabstimmungsmethoden, die oft unter dem Oberbegriff parametereffiziente Feinabstimmung (PEFT) zusammengefasst werden und nur eine ausgewählte Teilmenge der Modellparameter aktualisieren. PEFT-Methoden, auf die wir später in diesem Abschnitt eingehen, können den Rechenaufwand verringern und das katastrophale Vergessen – also das Phänomen, bei dem die Feinabstimmung zum Verlust oder zur Destabilisierung des Kernwissens des Modells führt – oft ohne nennenswerte Leistungseinbußen reduzieren.

Angesichts der großen Vielfalt an Feinabstimmungstechniken und der vielen Variablen, die mit jeder dieser Techniken verbunden sind, sind zum Erreichen einer idealen Modellleistung oft mehrere Iterationen von Trainingsstrategien und -konfigurationen erforderlich, bei denen Datensätze und Hyperparameter wie Batch-Größe, Lernrate und Regularisierungsbedingungen angepasst werden, bis ein zufriedenstellendes Ergebnis erreicht wird – je nachdem, welche Metriken für Ihren Anwendungsfall am relevantesten sind.

Vollständige Feinabstimmung

Die konzeptionell einfachste Art der Feinabstimmung besteht darin, einfach das gesamte neuronale Netz zu aktualisieren. Diese einfache Methode ähnelt im Wesentlichen dem Prozess des Vortrainings: Die einzigen grundlegenden Unterschiede zwischen der vollständigen Feinabstimmung und dem Vortraining sind der verwendete Datensatz und der Anfangszustand der Modellparameter.

Um destabilisierende Veränderungen durch den Feinabstimmungsprozess zu vermeiden, können bestimmte Hyperparameter – Modellattribute, die den Lernprozess beeinflussen, aber selbst keine lernbaren Parameter sind – relativ zu ihren Spezifikationen während des Vortrainings angepasst werden: Eine geringere Lernrate (die die Größe jeder Aktualisierung der Modellgewichtungen reduziert) führt beispielsweise weniger wahrscheinlich zu einem katastrophalen Vergessen.

Parametereffiziente Feinabstimmung (PEFT)

Die vollständige Feinabstimmung ist, wie auch der ähnliche Prozess des Vortrainings, sehr rechenintensiv. Für moderne Deep-Learning-Modelle mit Hunderten von Millionen oder gar vielen Milliarden Parametern ist dies oft unerschwinglich teuer und unpraktisch.

Parametereffiziente Feinabstimmung (PEFT) umfasst eine Reihe von Methoden, um die Anzahl der trainierbaren Parameter zu reduzieren, die aktualisiert werden müssen, um ein großes vortrainiertes Modell effektiv an spezifische nachgelagerte Anwendungen anzupassen. Auf diese Weise verringert PEFT die Rechenressourcen und den Speicherplatz, die für ein effektiv abgestimmtes Modell erforderlich sind, erheblich. PEFT-Methoden haben sich oft als stabiler erwiesen als vollständige Feinabstimmungsmethoden, insbesondere für NLP-Anwendungsfälle.3
 

Partielle Feinabstimmung
Partielle Feinabstimmungsmethoden, die auch als selektive Feinabstimmung bezeichnet werden, zielen darauf ab, den Rechenaufwand zu reduzieren, indem nur die ausgewählte Teilmenge der vortrainierten Parameter aktualisiert wird, die für die Modellleistung relevanter nachgelagerter Aufgaben am wichtigsten sind. Die restlichen Parameter werden „eingefroren“, sodass sichergestellt ist, dass sie nicht geändert werden.

Der intuitivste Ansatz zur partiellen Feinabstimmung besteht darin, nur die äußeren Schichten des neuronalen Netzes zu aktualisieren. In den meisten Modellarchitekturen erfassen die inneren Schichten des Modells (die der Eingabeschicht am nächsten liegen) nur breite, allgemeine Merkmale: In einem CNN, das zur Bildklassifizierung verwendet wird, erkennen die ersten Schichten beispielsweise typischerweise Kanten und Texturen; jede nachfolgende Schicht erkennt zunehmend feinere Merkmale, bis die endgültige Klassifizierung in der äußersten Schicht vorhergesagt wird. Im Allgemeinen gilt: Je ähnlicher die neue Aufgabe (für die das Modell feinabgestimmt wird) der ursprünglichen Aufgabe ist, desto nützlicher sind die vortrainierten Gewichtungen der inneren Schichten bereits für diese neue, verwandte Aufgabe – und desto weniger Schichten müssen aktualisiert werden.

Andere partielle Feinabstimmungsmethoden umfassen nur die Aktualisierung der schichtweiten Bias-Terme des Modells (anstatt der knotenspezifischen Gewichtungen)4 und „spärliche“ Feinabstimmungsmethoden, die nur eine ausgewählte Teilmenge der Gesamtgewichtungen im Modell aktualisieren.5


Additive Feinabstimmung
Anstatt die bestehenden Parameter eines vortrainierten Modells fein abzustimmen, fügen additive Methoden dem Modell zusätzliche Parameter oder Schichten hinzu, frieren die bestehenden vortrainierten Gewichtungen ein und trainieren nur diese neuen Komponenten. Dieser Ansatz trägt dazu bei, die Stabilität des Modells aufrechtzuerhalten, indem sichergestellt wird, dass die ursprünglichen vorab trainierten Gewichtungen unverändert bleiben.

Dies kann zwar die Trainingszeit verlängern, reduziert aber den Speicherbedarf erheblich, da viel weniger Gradienten und Optimierungszustände gespeichert werden müssen: Laut Lialin et al. erfordert das Training aller Parameter eines Modells 12 bis 20 Mal mehr GPU-Speicher als die Modellgewichtungen allein.6 Weitere Speichereinsparungen können durch die Quantisierung der eingefrorenen Modellgewichtungen erzielt werden: Hierbei handelt es sich um eine Verringerung der Präzision, die zur Darstellung der Modellparameter verwendet wird, ähnlich wie bei der Verringerung der Bitrate einer Audiodatei.

Ein Unterzweig der additiven Methoden ist das Prompt Tuning. Vom Konzept her ähnelt es dem Prompt Engineering, bei dem es darum geht, „Hard Prompts“ – d. h. Prompts, die von einem Menschen in natürlicher Sprache geschrieben wurden – so anzupassen, dass sie das Modell zum gewünschten Output führen, z. B. durch die Vorgabe eines bestimmten Tons oder durch die Bereitstellung von Beispielen, die das Few-Shot-Learning erleichtern. Beim Prompt Tuning werden von der KI erstellte Soft Prompts eingeführt: d. h. lernfähige Vektoreinbettungen, die mit dem Hard Prompt des Benutzers verknüpft werden. Anstatt das Modell neu zu trainieren, werden beim Prompt Tuning die Modellgewichtungen eingefroren und stattdessen der Soft Prompt selbst trainiert. Dank dem schnellen und effizienten Prompt Tuning können Modelle leichter zwischen bestimmten Aufgaben hin- und herwechseln, wenn auch mit einem Kompromiss in der Interpretationsfähigkeit.

Adapter
Eine andere Untergruppe der additiven Feinabstimmung injiziert Adaptermodule – neue, aufgabenspezifische Schichten, die dem neuronalen Netz hinzugefügt werden – und trainiert diese Adaptermodule anstelle der Feinabstimmung der vortrainierten Modellgewichtungen (die eingefroren werden). Laut der Originalpublikation, in der die Ergebnisse des maskierten BERT-Sprachmodells gemessen wurden, erreichten die Adapter eine Leistung, die der einer vollständigen Feinabstimmung entspricht, obwohl nur 3,6 % der Parameter trainiert wurden.7


Reparametrisierung
Auf Reparametrisierung basierende Methoden wie Low Rank Adaptation (LoRA) nutzen die Transformation hochdimensionaler Matrizen mit niedrigem Rang (z. B. die massive Matrix der vortrainierten Modellgewichtungen in einem Transformer-Modell). Diese Low-Rank-Darstellungen lassen unwichtige höherdimensionale Informationen weg, um die zugrunde liegende niedrigdimensionale Struktur der Modellgewichtungen zu erfassen, wodurch die Anzahl der trainierbaren Parameter erheblich reduziert wird. Dadurch wird die Feinabstimmung enorm beschleunigt und der für die Speicherung von Modellaktualisierungen benötigte Speicherplatz reduziert.

LoRA verzichtet auf eine direkte Optimierung der Matrix der Modellgewichtungen und optimiert stattdessen eine Matrix von Aktualisierungen der Modellgewichtungen (oder Deltagewichtungen), die in das Modell eingefügt wird. Diese Matrix der Gewichtungsaktualisierungen wird wiederum als zwei kleinere Matrizen (d. h. mit niedrigerem Rang) dargestellt, wodurch die Anzahl der zu aktualisierenden Parameter stark reduziert wird. Dies wiederum beschleunigt die Feinabstimmung erheblich und reduziert den zum Speichern der Modellaktualisierungen erforderlichen Speicherplatz. Die vortrainierten Modellgewichtungen selbst bleiben eingefroren.

Ein zusätzlicher Vorteil von LoRA besteht darin, dass nicht neue Modellgewichtungen optimiert und gespeichert werden, sondern die Differenz (oder das Delta) zwischen den ursprünglichen, vorab trainierten Gewichtungen und den fein abgestimmten Gewichtungen. So können verschiedene aufgabenspezifische LoRAs je nach Bedarf „ausgetauscht“ werden, um das vorab trainierte Modell – dessen tatsächliche Parameter unverändert bleiben – an einen bestimmten Anwendungsfall anzupassen.

Es wurden eine Vielzahl von LoRA-Ableitungen entwickelt, wie z. B. QLoRA, welches die Rechenkomplexität weiter reduziert, indem das Transformer-Modell vor dem LoRA quantisiert wird.

Feinabstimmung großer Sprachmodelle

Die Feinabstimmung ist ein wesentlicher Bestandteil des LLM-Entwicklungszyklus, der es ermöglicht, die grundlegenden und unverarbeiteten linguistischen Fähigkeiten der Foundation Models für eine Vielzahl von Anwendungsfällen anzupassen, von Chatbots über Codierung bis hin zu anderen kreativen und technischen Bereichen.

LLMs werden durch selbstüberwachtes Lernen anhand eines riesigen Korpus ungekennzeichneter Daten vortrainiert. Autoregressive Sprachmodelle wie OpenAIs GPT, Googles Gemini oder Metas Lama-Modelle werden darin geschult, einfach das nächste Wort bzw. die nächsten Wörter in einer Sequenz vorherzusagen, bis diese vollständig ist. Beim Vortraining erhalten die Modelle den Anfang eines Beispielsatzes aus den Trainingsdaten und werden wiederholt mit der Vorhersage des nächsten Wortes in der Sequenz beauftragt, bis das Beispiel endet. Für jede Vorhersage dient das tatsächliche nächste Wort des ursprünglichen Beispielsatzes als Ground Truth.

Dieses Vortraining sorgt zwar für eine leistungsstarke Texterstellung, aber es ermöglicht kein tatsächliches Verständnis der Absicht des Benutzers. Grundsätzlich antworten autoregressive LLMs nicht wirklich auf einen Prompt. Sie ergänzen lediglich den Text. Ohne eine sehr spezifische Anleitung in Form von Prompt Engineering sagt ein trainiertes LLM (für das keine Feinabstimmung vorgenommen wurde) einfach auf grammatikalisch kohärente Weise voraus, was das nächste Wort bzw. die nächsten Wörter in einer bestimmten Sequenz sein könnten, die durch den Prompt ausgelöst wird. Gibt man als Prompt „Bringen Sie mir bei, wie man einen Lebenslauf erstellt“ ein, könnte ein LLM Folgendes antworten: „mit Microsoft Word“. Dies ist eine gültige Möglichkeit, den Satz zu vervollständigen, aber nicht auf das Ziel des Benutzers abgestimmt. Das Modell könnte bereits über ein umfangreiches Wissen über das Verfassen von Lebensläufen verfügen, das es aus relevanten Inhalten in seinem für das Vorabtraining verwendeten Korpus gewonnen hat, aber ohne eine Feinabstimmung könnte dieses Wissen nicht abgerufen werden.

Der Prozess der Feinabstimmung spielt also eine entscheidende Rolle, wenn es darum geht, die Foundation Models nicht nur auf Ihre oder die speziellen Anforderungen Ihres Unternehmens zuzuschneiden, sondern sie insgesamt für den praktischen Einsatz tauglich zu machen.

Anweisungsoptimierung

Die Anweisungsoptimierung ist eine Teilmenge der überwachten Feinabstimmung (Supervised Fine-Tuning, SFT), die häufig zur Feinabstimmung von LLMs für die Chatbot-Nutzung verwendet wird und das LLM darauf vorbereitet, Antworten zu generieren, die direkter auf die Bedürfnisse der Benutzer eingehen: mit anderen Worten, um Anweisungen besser zu befolgen. Gekennzeichnete Beispiele, die dem Format (Prompt, Antwort) folgen – wobei die Prompt-Beispiele anweisungsorientierte Aufgaben umfassen, wie „Übersetzen Sie den folgenden Satz aus dem Englischen ins Spanische“ oder „Klassifizieren Sie den folgenden Satz als positiv oder negativ“ – demonstrieren, wie man auf Prompts reagiert, die eine Vielzahl von Anwendungsfällen repräsentieren, z. B. die Beantwortung von Fragen, Zusammenfassungen oder Übersetzungen. Durch die Aktualisierung der Modellgewichtungen, um den Verlust zwischen den Outputs des Modells und den gekennzeichneten Stichproben zu minimieren, lernt das LLM, Aufforderungen sinnvoller durch Text zu ergänzen und Anweisungen im Allgemeinen besser zu befolgen.

In Anlehnung an das frühere Beispiel der Aufforderung „Bringen Sie mir bei, wie man einen Lebenslauf schreibt“ könnte der für SFT verwendete Datensatz eine Reihe von Paaren (Prompt, Antwort) enthalten, die zeigen, dass die gewünschte Art und Weise, auf Prompts zu antworten, die mit „Bringen Sie mir bei, wie man“ beginnen, darin besteht, Schritt für Schritt Vorschläge zu machen, anstatt den Satz einfach zu vervollständigen.

Reinforcement Learning mit menschlichem Feedback (RLHF)

Während man dem Modell durch die Abstimmung von Anweisungen konkrete, einfache Verhaltensweisen beibringen kann, wie z. B. die Strukturierung seiner Antworten, kann es sehr mühsam und schwierig sein, abstrakte menschliche Eigenschaften wie Hilfsbereitschaft, sachliche Richtigkeit, Humor oder Empathie durch gekennzeichnete Beispiele zu vermitteln.

Um den Output des Modells besser an das ideale menschliche Verhalten anzupassen, insbesondere bei dialogorientierten Anwendungsfällen wie Chatbots, kann SFT durch Reinforcement Learning ergänzt werden – genauer gesagt durch Reinforcement Learning mit menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF). RLHF, auch Reinforcement Learning anhand menschlicher Präferenzen genannt, hilft bei der Feinabstimmung von Modellen für Eigenschaften, die komplex, schlecht definiert oder durch diskrete Beispiele schwer zu spezifizieren sind.

Nehmen wir das Beispiel Comedy: Um einem Modell mit SFT beizubringen, „witzig“ zu sein, muss man nicht nur die Kosten und den Arbeitsaufwand aufbringen, um ausreichend Witze zu schreiben (oder zu erwerben) und damit ein erlernbares Muster zu erstellen, sondern auch dafür sorgen, dass das, was ein bestimmter Data Scientist für witzig hält, mit dem übereinstimmt, was die Nutzerbasis witzig finden würde. RLHF bietet im Wesentlichen eine mathematische Crowdsourcing-Alternative: Fordern Sie das LLM auf, Witze zu generieren und lassen Sie menschliche Tester deren Qualität bewerten. Diese Bewertungen können verwendet werden, um ein Belohnungsmodell zu trainieren, das vorhersagt, welche Art von Witzen positives Feedback erhalten werden. Dieses Belohnungsmodell kann wiederum verwendet werden, um das LLM durch Reinforcement Learning zu trainieren. 

In der Praxis zielt RLHF darauf ab, existenzielle Herausforderungen von LLMs wie Halluzinationen, gesellschaftliche Bias in den Trainingsdaten oder den Umgang mit unhöflichen oder feindseligen Benutzereingaben anzugehen.

Häufige Anwendungsfälle für die Feinabstimmung

Die Feinabstimmung kann für eine Vielzahl von Zwecken genutzt werden, von der Anpassung und Ergänzung des grundlegenden Wissens des Modells bis hin zur Erweiterung des Modells auf völlig neue Aufgaben und Domänen.

  • Personalisierung des Stils: Die Modelle können an den von einer Marke gewünschten Ton angepasst werden, von der Implementierung komplexer Verhaltensmuster und eigenwilliger Illustrationsstile bis hin zu einfachen Änderungen wie dem Beginn jedes Gesprächs mit einer höflichen Anrede.

  • Spezialisierung: Die allgemeinen sprachlichen Fähigkeiten von LLMs können für spezifische Aufgaben verfeinert werden. Die Llama-2-Modelle von Meta wurden beispielsweise als Foundation Models, Chatbot-angepasste Varianten (Llama-2-chat) und Code-angepasste Varianten (Code Llama) veröffentlicht. 

  • Hinzufügen von domänenspezifischem Wissen: LLMs werden zwar anhand eines riesigen Datenkorpus vortrainiert, sind aber nicht allwissend. Die Verwendung zusätzlicher Trainingsbeispiele, um das Wissen des Basismodells zu ergänzen, ist vor allem in den Bereichen Recht, Finanzen oder Medizin von Bedeutung, in denen typischerweise ein spezielles, komplexes Vokabular verwendet wird, das beim Vortraining möglicherweise nicht ausreichend berücksichtigt wurde.

  • Few-Shot-Learning: Modelle, die bereits über starkes verallgemeinertes Wissen verfügen, können oft mithilfe von vergleichsweise weniger anschaulichen Beispielen für spezifischere Klassifikationstexte feinabgestimmt werden. 

  • Umgang mit Grenzfällen: Möglicherweise möchten Sie, dass Ihr Modell bestimmte Situationen bewältigt, die im Vortraining wahrscheinlich nicht auf eine bestimmte Weise behandelt wurden. Die Feinabstimmung eines Modells anhand gekennzeichneter Beispiele für solche Situationen ist ein wirksames Mittel, um sicherzustellen, dass angemessen damit umgegangen wird.

  • Integration proprietärer Daten: Ihr Unternehmen verfügt möglicherweise über eine eigene proprietäre Daten-Pipeline, die für Ihren speziellen Anwendungsfall sehr relevant ist. Durch die Feinabstimmung kann dieses Wissen in das Modell integriert werden, ohne dass es von Grund auf neu trainiert werden muss.  

Weiterführende Lösungen
IBM watsonx.ai™

Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.

watsonx.ai erkunden

Foundation Models in watsonx.ai

Das KI-Studio von watsonx bietet eine Bibliothek mit kostengünstigen, unternehmenstauglichen Foundation Models von IBM, Open-Source-Modellen und Modellen von Drittanbietern, um Kunden und Partnern dabei zu helfen, generative KI schnell und mit minimalem Risiko zu skalieren und zu operationalisieren.

Entdecken Sie die IBM Bibliothek der Foundation Models
Feinabstimmung der Ressourcen Schnellstart: Ein Foundation Model abstimmen

Erfahren Sie in dieser Reihe von Tutorials und Videoanleitungen, wie, warum und wann Sie ein Foundation Model in watsonx.ai abstimmen sollten.

Entwicklung generativer KI-Lösungen mit Foundation Models

Untersuchen und validieren Sie Anwendungsfälle mit Foundation Models, um bestehende Prozesse zu automatisieren, zu vereinfachen und zu beschleunigen oder auf neue Art und Weise einen Mehrwert zu schaffen.

Was ist Zero-Shot-Learning?

Erfahren Sie mehr über Zero-Shot Learning (ZSL) – ein Szenario des maschinellen Lernens, bei dem ein KI-Modell darauf trainiert wird, Objekte oder Konzepte zu erkennen und zu kategorisieren, ohne zuvor Beispiele gesehen zu haben – und wie Modelle für eine bessere Zero-Shot-Leistung feinabgestimmt werden können.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo