Startseite topics rlhf Was ist Reinforcement Learning from Human Feedback (RLHF)?
Entdecken Sie die RLHF Lösung von IBM Abonnieren Sie KI-Updates
Illustration mit Collage aus Piktogrammen von Wolken, Kreisdiagramm, Diagrammpiktogrammen

Veröffentlicht: 10. November 2023
Mitwirkende: Dave Bergmann

Was ist RLHF?

Bestärkendes Lernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) ist eine Technik des maschinellen Lernens, bei der ein „Belohnungsmodell“ durch direktes menschliches Feedback trainiert und dann zur Optimierung der Leistung eines Agenten der künstlichen Intelligenz durch bestärkendes Lernen verwendet wird.

RLHF, auch bestärkendes Lernen aus menschlichen Vorlieben genannt, eignet sich hervorragend für Aufgaben mit komplexen, unklar definierten oder schwer zu spezifizierenden Zielen. Beispielsweise wäre es für eine algorithmische Lösung unpraktisch (oder sogar unmöglich), den Begriff „lustig“ mathematisch zu definieren, aber für Menschen wäre es einfach, Witze zu bewerten, die von einem großen Sprachmodell (LLM) generiert wurden. Dieses menschliche Feedback, destilliert in eine Belohnungsfunktion, könnte dann dazu verwendet werden, die Fähigkeiten des LLM beim Schreiben von Witzen zu verbessern.

In einer Veröffentlichung aus dem Jahr 2017 beschrieb Paul F. Christiano von OpenAI zusammen mit anderen Forschern von OpenAI und DeepMind den Erfolg von RLHF beim Training von KI-Modellen für komplizierte Aufgaben wie Atari-Spiele und simulierte Roboterfortbewegung.1 Nach diesem Durchbruch waren Videospiele weiterhin ein wichtiges Testfeld für RLHF: 2019 hatten mit RLHF trainierte KI-Systeme wie OpenAI Five und AlphaStar von DeepMind die besten menschlichen Profispieler in den weitaus komplexeren Spielen Dota22 undStarCraft3 besiegt.

Am wichtigsten ist vielleicht, dass OpenAI in seinem Artikel von 2017 feststellte, dass seine Methodik – insbesondere die Einführung des Proximal Policy Optimization (PPO)-Algorithmus für die Aktualisierung der Modellgewichte – die Kosten für die Erfassung und Destillation des erforderlichen menschlichen Feedbacks erheblich reduzierte. Dies ebnete den Weg für die spätere Integration von RLHF in den Bereich der Verarbeitung natürlicher Sprache (NLP), und die daraus resultierenden Fortschritte trugen dazu bei, sowohl LLMs als auch RLHF an die Spitze der KI-Forschung zu führen.

Die erste Veröffentlichung von Code, der die Verwendung von RLHF auf Sprachmodellen beschreibt, kam 2019 von OpenAI4, das dann Anfang 2022 das RLHF-trainierte InstructGPT veröffentlichte.5 Dies war ein entscheidender Schritt, um die Lücke zwischen den Modellen GPT-3 und GPT-3.5-turbo, die die Einführung von ChatGPT vorantrieben, zu schließen.

RLHF wird seitdem für das Trainieren modernster LLMs von OpenAI, DeepMind, Google6 und Anthropic verwendet.7

Erstellen Sie verantwortungsvolle KI-Workflows mit KI-Governance

Lernen Sie die Bausteine und Best Practices kennen, die Ihren Teams helfen, verantwortungsvolle KI zu beschleunigen.

Ähnliche Inhalte

Registrieren Sie sich, um den Leitfaden zu Foundation Models zu lesen

Wie bestärkendes Lernen funktioniert

Das Konzept des bestärkenden Lernens (Reinforcement Learning, RL) zielt darauf ab, die Art und Weise des menschlichen Lernens nachzuahmen: KI-Agenten lernen – motiviert durch starke Anreize zum Erfolg – ganzheitlich durch Versuch und Irrtum.

Um diese Strategie in die Praxis umzusetzen, umfasst ein mathematischer Rahmen für Reinforcement Learning die folgenden Komponenten:

Zustandsraum

Der Zustandsraum umfasst alle verfügbaren Informationen über die jeweilige Aufgabe, die für Entscheidungen relevant sind, die der KI-Agent treffen könnte, einschließlich bekannter und unbekannter Variablen. Der Zustandsraum ändert sich normalerweise mit jeder Entscheidung, die der Agent trifft.

Aktionsraum

Der Aktionsraum enthält alle Entscheidungen, die der KI-Agent treffen könnte. Bei einem Brettspiel beispielsweise ist der Aktionsraum getrennt und klar definiert: Er besteht aus allen legalen Zügen, die dem KI-Spieler zu einem bestimmten Zeitpunkt zur Verfügung stehen. Im Kontext der Texterzeugung ist der Aktionsraum riesig und umfasst das gesamte „Vokabular“ der Token, die einem LLM zur Verfügung stehen.

Belohnungsfunktion

Belohnung ist das Maß für Erfolg oder Fortschritt, das dem KI-Agenten einen Anreiz gibt. In einigen Fällen, wie bei Brettspielen, ist die Definition von Erfolg – in diesem Fall der Gewinn des Spiels – objektiv und einfach. Aber wenn die Definition von „Erfolg“ nebulös ist, kann die Entwicklung einer effektiven Belohnungsfunktion eine große Herausforderung sein. In einem mathematischen Rahmen muss dieses Feedback in ein Belohnungssignal übersetzt werden: eine skalare Quantifizierung des positiven (oder negativen) Feedbacks.

Einschränkungen

Eine Belohnungsfunktion könnte durch Strafen – negative Belohnungen – für Handlungen ergänzt werden, die als kontraproduktiv für die anstehende Aufgabe angesehen werden. So könnte ein Unternehmen beispielsweise einem Chatbot die Verwendung von Schimpfwörtern oder anderen vulgären Ausdrücken untersagen; ein selbstfahrendes Automodell könnte für Kollisionen oder das Verlassen einer Fahrspur bestraft werden.

Richtlinie

Eine Richtlinie ist im Wesentlichen die Strategie oder der „Gedankenprozess“, der das Verhalten eines KI-Agenten steuert. Einfach ausgedrückt ist eine Richtlinie („π“) eine Funktion, die einen Zustand („s“) als Eingabe annimmt und eine Aktion („a“) zurückgibt: π(s)→a.

Das Ziel eines RL-Algorithmus ist es, eine Strategie so zu optimieren, dass eine maximale Belohnung erzielt wird. Beim Deep Reinforcement Learning wird die Strategie als neuronales Netz dargestellt, das während des Trainingsprozesses entsprechend der Belohnungsfunktion kontinuierlich aktualisiert wird. Der KI-Agent lernt aus Erfahrung, ähnlich wie Menschen.

Während die konventionelle RL in vielen Bereichen beeindruckende Ergebnisse in der Praxis erzielt hat, kann es schwierig sein, eine Belohnungsfunktion für komplexe Aufgaben zu konstruieren, bei denen eine eindeutige Definition des Erfolgs schwer zu finden ist. Der Hauptvorteil von RLHF ist seine Fähigkeit, Nuancen und Subjektivität einzufangen, indem es positives menschliches Feedback anstelle von formell definierten Zielen verwendet.

RLHF für Großsprachenmodelle

Eine der wichtigsten Anwendungen von RLHF ist die Verbesserung der Relevanz, Genauigkeit und Ethik von LLM – insbesondere für die Verwendung als Chatbots.

LLMs versuchen wie alle generativen KI-Modelle, die Wahrscheinlichkeitsverteilung von Trainingsdaten zu replizieren. Obwohl die jüngsten Fortschritte die Verwendung von LLMs als Motoren für Chatbots oder sogar als logische Motoren für allgemeine KI gefördert haben, verwenden diese Sprachmodelle einfach Muster, die sie aus ihren Trainingsdaten lernen, um das nächste Wort bzw. die nächsten Wörter in einer bestimmten Sequenz, eingeleitet durch eine Eingabeaufforderung, vorherzusagen. Grundsätzlich antworten diese Modelle nicht wirklich auf eine Eingabeaufforderung: Sie hängen Text daran an. 

Ohne sehr spezifische Anweisungen sind Sprachmodelle kaum in der Lage, die Absicht des Benutzers zu verstehen. Obwohl Prompt Engineering dazu beitragen kann, den Kontext zu liefern, den ein LLM benötigt, um seine Antwort auf die Bedürfnisse eines Benutzers abzustimmen, ist es unpraktisch, Prompt Engineering für jeden einzelnen Austausch mit einem Chatbot zu benötigen.

Während LLMs mit konventionellen Methoden trainiert wurden, um grammatikalisch kohärente Ausgaben zu produzieren, ist es ein Problem, LLMs zu trainieren, um „gute“ Ausgaben zu produzieren. Begriffe wie Wahrheit, Hilfsbereitschaft, Kreativität oder auch die Frage, was ein Codeschnipsel ausführbar macht, sind weitaus kontextabhängiger als Wortbedeutungen und sprachliche Strukturen.

Um Sprachmodelle für die menschliche Interaktion zu verbessern, wandten sich Data Scientists dem Reinforcement Learning mit menschlichem Feedback zu. Die RLHF-erweiterten InstructGPT-Modelle übertrafen ihre GPT-3-Vorgänger deutlich, insbesondere in Bezug auf die Befolgung von Anweisungen, die Aufrechterhaltung der sachlichen Genauigkeit und die Vermeidung von Modellhalluzinationen.5 In ähnlicher Weise zeigten Untersuchungen, die von OpenAI nach der Einführung von GPT-4 veröffentlicht wurden, dass RLHF die Genauigkeit bei kontradiktorischen Fragen verdoppelte.8  

Die Vorteile von RLHF können sogar den Wert größerer Trainingsdatensätze übertreffen und eine dateneffizientere Modellentwicklung ermöglichen: OpenAI stellte fest, dass seine Etikettierer die Ergebnisse der 1,3B-Parameter-Version von InstructGPT sogar den Ergebnissen der 175B-Parameter-Version von GPT-3.5vorzogen.

Wie funktioniert RLHF?

Das Training eines LLM mit RLHF findet in der Regel in vier Phasen statt:

Modelle vortrainieren

RLHF wird im Allgemeinen zur Feinabstimmung und Optimierung eines vorab trainierten Modells und nicht als durchgängige Trainingsmethode eingesetzt. Beispielsweise verwendete InstructGPT RLHF, um das bereits vorhandene GPT-Modell (Generative Pre-Trained Transformer) zu verbessern. In der Ankündigung der Veröffentlichung von InstructGPT erklärte OpenAI, dass „eine Art, über diesen Prozess nachzudenken, darin besteht, dass er Fähigkeiten „freischaltet“, die GPT-3 bereits besaß, die aber durch Prompt Engineering allein nur schwer zu erlangen waren.“5  

Das Vortraining bleibt mit Abstand die ressourcenintensivste Phase von RLHF. OpenAI stellte fest, dass der RLHF-Trainingsprozess für InstructGPT weniger als 2 Prozent der für das Vortrainieren von GPT-3 erforderlichen Berechnungen und Daten umfasste.

Überwachte Feinabstimmung

Vor dem Beginn des expliziten bestärkenden Lernens wird die überwachte Feinabstimmung (supervised fine-tuning, SFT) verwendet, um das Modell darauf vorzubereiten, seine Antworten in dem vom Benutzer erwarteten Format zu erzeugen.

Wie bereits angedeutet, optimiert der LLM-Pre-Trainingsprozess die Modelle für die Vervollständigung: Die Vorhersage der nächsten Wörter in einer Sequenz, die mit der Eingabeaufforderung des Benutzers beginnt, wird durch die Wiederholung der linguistischen Muster, die während des Modell-Pre-Trainings gelernt wurden, ermöglicht. Manchmal vervollständigen LLMs eine Sequenz nicht so, wie es der Benutzer wünscht: Wenn die Aufforderung des Benutzers zum Beispiel lautet: „Zeige mir, wie man einen Lebenslauf erstellt“, könnte der LLM mit „mit Microsoft Word“ antworten. Dies ist eine gültige Möglichkeit, den Satz zu vervollständigen, aber nicht auf das Ziel des Benutzers abgestimmt.

SFT nutzt daher überwachtes Lernen, um Modelle zu trainieren, angemessen auf verschiedene Arten von Eingabeaufforderungen zu reagieren. Menschliche Experten erstellen beschriftete Beispiele, die dem Format(Aufforderung, Antwort) folgen, um zu demonstrieren, wie man auf Aufforderungen für verschiedene Anwendungsfälle, wie z. B. die Beantwortung von Fragen, Zusammenfassungen oder Übersetzungen, reagiert.

Die Generierung dieser Demonstrationsdaten ist zwar leistungsstark, aber zeitaufwändig und teuer. Anstatt maßgeschneiderte neue Beispiele zu erstellen, hat DeepMind den Ansatz eingeführt, „eine Filterheuristik anzuwenden, die auf einem gemeinsamen schriftlichen Dialogformat basiert („Interviewtranskript“-Stil)“, um geeignete Frage/Antwort-Beispielpaare aus dem MassiveWeb-Datensatz zu isolierenl9

Belohnungsmodell-Training

Damit menschliches Feedback eine Belohnungsfunktion beim Verstärkungslernen antreiben kann, ist ein Belohnungsmodell erforderlich, das die menschliche Präferenz in ein numerisches Belohnungssignal übersetzt. Das Entwerfen eines effektiven Prämienmodells ist ein entscheidender Schritt in RLHF, da keine einfache mathematische oder logische Formel vorhanden ist, um subjektive menschliche Werte zu definieren.

Der Hauptzweck dieser Phase besteht darin, das Belohnungsmodell mit ausreichenden Trainingsdaten zu versorgen, die aus direktem Feedback von menschlichen Bewertern bestehen, damit das Modell lernen kann, die Art und Weise nachzuahmen, wie menschliche Präferenzen Belohnungen für verschiedene Arten von Modellantworten zuweisen. Dadurch kann das Training offline fortgesetzt werden, ohne dass ein Mensch eingreift.

Ein Belohnungsmodell muss eine Textsequenz aufnehmen und einen skalaren Belohnungswert ausgeben, der numerisch vorhersagt, wie viel ein menschlicher Benutzer diesen Text belohnen (oder bestrafen) würde. Diese Ausgabe, die ein Skalarwert ist, ist für das Zusammenführen der Ausgabe des Belohnungsmodells mit anderen Komponenten des RL-Algorithmus unerlässlich.

Auch wenn es intuitiv erscheinen mag, die menschlichen Bewerter einfach ihre Meinung zu jeder Modellantwort in skalarer Form ausdrücken zu lassen – wie etwa die Bewertung der Antwort auf einer Skala von eins (schlechteste) bis zehn (beste) –, so ist es doch äußerst schwierig, alle menschlichen Bewerter dazu zu bringen, sich auf den relativen Wert einer bestimmten Punktzahl zu einigen, ganz zu schweigen davon, die menschlichen Bewerter dazu zu bringen, sich darauf zu einigen, was eine „gute“ oder „schlechte“ Antwort in einem Vakuum ist. Dies kann dazu führen, dass die direkte Skalarbewertung verrauscht und schwierig zu kalibrieren ist.

Stattdessen wird ein Bewertungssystem normalerweise durch den Vergleich menschlicher Rückmeldung für verschiedene Modellergebnisse aufgebaut. Eine gängige Methode besteht darin, die Benutzer zwei analoge Textsequenzen miteinander vergleichen zu lassen, z. B. die Ausgabe von zwei verschiedenen Sprachmodellen, die auf dieselbe Eingabeaufforderung reagieren, und dann ein Elo-Rating-System zu verwenden, um eine Gesamtwertung der einzelnen Textabschnitte im Vergleich zueinander zu erstellen. Ein einfaches System könnte es Nutzern ermöglichen, für jede Ausgabe einen „Daumen hoch“ oder „Daumen runter“ zu vergeben, wobei die Ausgaben dann nach ihrer relativen Beliebtheit geordnet werden. Komplexere Systeme könnten von den Kennzeichnern verlangen, eine Gesamtbewertung abzugeben und kategorische Fragen zu den Mängeln jeder Antwort zu beantworten, und dieses Feedback dann algorithmisch zu einer gewichteten Qualitätsbewertung zusammenzufassen.

Die Ergebnisse der verschiedenen Bewertungssysteme werden schließlich in ein skalares Belohnungssignal umgewandelt, um das Belohnungsmodell zu trainieren.

Optimierung der Richtlinien

Die letzte Hürde von RLHF besteht darin, zu bestimmen, wie – und in welcher Höhe – das Belohnungsmodell verwendet werden soll, um die Richtlinien des KI-Agenten zu aktualisieren. Einer der erfolgreichsten Algorithmen für die Belohnungsfunktion, die RL-Modelle aktualisiert, ist die Proximal Policy Optimization (PPO).

Im Gegensatz zu den meisten Modellarchitekturen für maschinelles Lernen und neuronale Netze, die mit dem Gradientenabstieg ihre Verlustfunktion minimieren, um den kleinstmöglichen Fehler zu erzielen, verwenden Algorithmen des bestärkenden Lernens häufig den Gradientenaufstieg, um die Belohnung zu maximieren.

Wird die Belohnungsfunktion jedoch ohne Leitplanken zum Trainieren des LLM verwendet, kann das Sprachmodell seine Gewichte so stark verändern, dass es Kauderwelsch ausgibt, um das Belohnungsmodell zu „überlisten“. PPO bietet ein stabileres Mittel zur Aktualisierung der Richtlinie des KI-Agenten, indem es begrenzt, wie stark die Richtlinie in jeder Trainingsiteration aktualisiert werden kann.

Zuerst wird eine Kopie des ursprünglichen Modells erstellt und seine trainierbaren Gewichte werden eingefroren. Der PPO-Algorithmus berechnet einen Bereich von [1-ε, 1+ε], wobei ε ein Hyperparameter ist, der grob bestimmt, wie weit die neue (aktualisierte) Richtlinie von der alten (eingefrorenen) Richtlinie abweichen darf. Anschließend wird ein Wahrscheinlichkeitsverhältnis berechnet: das Verhältnis zwischen der Wahrscheinlichkeit, dass eine bestimmte Aktion von der alten Richtlinie ausgeführt wird, und der Wahrscheinlichkeit, dass diese Aktion von der neuen Richtlinie ausgeführt wird. Wenn das Wahrscheinlichkeitsverhältnis größer als 1+ε (oder unter1-ε) ist, kann die Größe der Richtlinienaktualisierung abgeschnitten werden, um starke Änderungen zu verhindern, die das gesamte Modell destabilisieren könnten.

Die Einführung von PPO bot eine attraktive Alternative zu seinem Vorgänger, der Trust Region Policy Optimization (TRPO), die ähnliche Vorteile bietet, aber komplizierter und rechenintensiver ist als PPO. Während andere Frameworks zur Richtlinienoptimierung wie Advantage Actor-Critic (A2C) ebenfalls praktikabel sind, wird PPO oft als einfache und kostengünstige Methode favorisiert.

Einschränkungen von RLHF

Obwohl RLHF-Modelle beeindruckende Ergebnisse beim Training von KI-Agenten für komplexe Aufgaben von Robotik über Videospiele bis hin zu NLP gezeigt haben, ist die Verwendung von RLHF nicht ohne Einschränkungen.

  • Menschliche Präferenzdaten sind teuer. Die Notwendigkeit, menschlichen Input aus erster Hand zu sammeln, kann einen kostspieligen Engpass darstellen, der die Skalierbarkeit des RLHF-Prozesses einschränkt. Sowohl Anthropic10 als auch Google 11 haben Methoden des bestärkenden Lernens aus KI-Feedback (RLAIF) vorgeschlagen, bei denen ein Teil oder das gesamte menschliche Feedback durch die Bewertung der Modellantworten durch ein anderes LLM ersetzt wird, was zu Ergebnissen geführt hat, die mit denen von RLHF vergleichbar sind.
  • Menschlicher Input ist sehr subjektiv. Es ist schwierig, wenn nicht gar unmöglich, einen festen Konsens darüber zu erzielen, was eine „qualitativ hochwertige“ Ausgabe ausmacht, da menschliche Kommentatoren oft nicht nur in Bezug auf angebliche Fakten, sondern auch in Bezug auf ein „angemessenes“ Modellverhalten unterschiedlicher Meinung sind. Menschliche Meinungsverschiedenheiten verhindern somit die Schaffung einer echten „Grundwahrheit“, anhand derer die Leistung des Modells beurteilt werden kann.
  • Menschliche Gutachter können fehlbar oder sogar absichtlich feindselig und böswillig sein. Unabhängig davon, ob es sich um echte konträre Ansichten handelt oder um absichtliches Trolling des Lernprozesses, werden die menschlichen Hinweise zum Modell nicht immer in gutem Glauben gegeben. In einer Veröffentlichung aus dem Jahr 2016 postulierten Wolf et al., dass toxisches Verhalten eine grundlegende Erwartung an die Interaktion zwischen Mensch und Roboter sein sollte, und schlugen vor, eine Methode zur Bewertung der Glaubwürdigkeit menschlicher Eingaben zu entwickeln.12 Im Jahr 2022 veröffentlichte Meta AI eine Veröffentlichung über gegnerische menschliche Eingaben (der Link befindet sich außerhalb von ibm.com), in der automatisierte Methoden untersucht wurden, „um eine maximale Lerneffizienz aus qualitativ hochwertigen Daten zu erzielen und gleichzeitig eine maximale Robustheit gegenüber qualitativ schlechten und gegnerischen Daten zu erreichen“. Der Artikel identifiziert verschiedene „Troll“-Archetypen und die unterschiedlichen Arten, wie sie Feedbackdaten verzerren.
  • Bei RLHF besteht das Risiko einer Überanpassung und Verzerrung. Wenn menschliches Feedback von einer zu eng gefassten Bevölkerungsgruppe eingeholt wird, kann das Modell Leistungsprobleme aufweisen, wenn es von verschiedenen Gruppen verwendet oder zu Themen aufgefordert wird, für die die menschlichen Bewerter bestimmte Vorurteile haben.
Weiterführende Lösungen
watsonx.ai

Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.

watsonx.ai erkunden

RLHF-Ressourcen Erste Schritte mit Online Reinforcement Learning APIs

Dieser Lernpfad bietet einen Überblick über automatisiertes Reinforcement Learning und veranschaulicht die Verwendung von Automated AI for Decision-Making APIs zur Unterstützung allgemeiner Anwendungsfälle für Online-Reinforcement Learning.

Trainieren Sie einen Software-Agenten mit Reinforcement Learning darin, sich rational zu verhalten

Lernen Sie die Geschichte und die grundlegenden Prinzipien des bestärkenden Lernens kennen und erstellen Sie dann eine einfache Vorführung mit der „Q learning“-Technik. Enthält eine Beispielimplementierung.

So bringt IBM Consulting einen wertvollen und verantwortungsvollen Ansatz in die KI ein

Im ersten und zweiten Teil dieser dreiteiligen Serie haben wir uns Definitionen und Anwendungsfälle generativer KI angesehen. In dieser Folge wird der Ansatz untersucht, den IBM Consulting bei der Umsetzung von KI-Projekten verfolgt.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo
Fußnoten

1 „Deep Reinforcement Learning from Human Preferences“, (Link befindet sich außerhalb von ibm.com) arXiv, zuletzt überarbeitet am 17. Februar 2023
2 „OpenAI Five defeats Dota 2 world champions“, (Link liegt außerhalb von ibm.com) OpenAI, 15. April 2019.
3 „AlphaStar: Mastering the real-time strategy game StarCraft II“, (Link befindet sich außerhalb von ibm.com) Google DeepMind, 24. Januar 2019
4lm-human-preferences“,(Link befindet sich außerhalb von ibm.com)  OpenAI (auf GitHub), 2019
5 „Aligning language models to follow instructions“, (Link befindet sich außerhalb von ibm.com) OpenAI, 27. Januar 2022
6 „An overview of Bard: an early experiment with generative AI“,(Link befindet sich außerhalb von ibm.com)  Google AI, zuletzt aktualisiert am 19. Oktober 2023
7 „Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback“, (Link befindet sich außerhalb von ibm.com) arXiv, 12. April 2022
8 „Research: GPT-4“, (Link liegt außerhalb von ibm.com) OpenAI, 14. März 2023
9 „Scaling Language Models: Methods, Analysis & Insights from Training Gopher“, (Link befindet sich außerhalb von ibm.com) arXiv, letzte Überarbeitung am 21. Januar 2022
10 „Constitutional AI: Harmlessness from AI Feedback“, (Link befindet sich außerhalb von ibm.com) Anthropic, 15. Dezember 2022
11 RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback“, (Link befindet sich außerhalb von ibm.com) arXiv, 1. September 2023
12 „Why We Should Have Have Seen That Coming: Comments on Microsoft's Tay 'Experiment' and Wider Implications“, (Link liegt außerhalb von ibm.com) Das ORBIT Journal, 2017