Damit menschliches Feedback eine Belohnungsfunktion beim Verstärkungslernen antreiben kann, ist ein Belohnungsmodell erforderlich, das die menschliche Präferenz in ein numerisches Belohnungssignal übersetzt. Das Entwerfen eines effektiven Prämienmodells ist ein entscheidender Schritt in RLHF, da keine einfache mathematische oder logische Formel vorhanden ist, um subjektive menschliche Werte zu definieren.
Der Hauptzweck dieser Phase besteht darin, das Belohnungsmodell mit ausreichenden Trainingsdaten zu versorgen, die aus direktem Feedback von menschlichen Bewertern bestehen, damit das Modell lernen kann, die Art und Weise nachzuahmen, wie menschliche Präferenzen Belohnungen für verschiedene Arten von Modellantworten zuweisen. Dadurch kann das Training offline fortgesetzt werden, ohne dass ein Mensch eingreift.
Ein Belohnungsmodell muss eine Textsequenz aufnehmen und einen skalaren Belohnungswert ausgeben, der numerisch vorhersagt, wie viel ein menschlicher Benutzer diesen Text belohnen (oder bestrafen) würde. Diese Ausgabe, die ein Skalarwert ist, ist für das Zusammenführen der Ausgabe des Belohnungsmodells mit anderen Komponenten des RL-Algorithmus unerlässlich.
Auch wenn es intuitiv erscheinen mag, die menschlichen Bewerter einfach ihre Meinung zu jeder Modellantwort in skalarer Form ausdrücken zu lassen – wie etwa die Bewertung der Antwort auf einer Skala von eins (schlechteste) bis zehn (beste) –, so ist es doch äußerst schwierig, alle menschlichen Bewerter dazu zu bringen, sich auf den relativen Wert einer bestimmten Punktzahl zu einigen, ganz zu schweigen davon, die menschlichen Bewerter dazu zu bringen, sich darauf zu einigen, was eine „gute“ oder „schlechte“ Antwort in einem Vakuum ist. Dies kann dazu führen, dass die direkte Skalarbewertung verrauscht und schwierig zu kalibrieren ist.
Stattdessen wird ein Bewertungssystem normalerweise durch den Vergleich menschlicher Rückmeldung für verschiedene Modellergebnisse aufgebaut. Eine gängige Methode besteht darin, die Benutzer zwei analoge Textsequenzen miteinander vergleichen zu lassen, z. B. die Ausgabe von zwei verschiedenen Sprachmodellen, die auf dieselbe Eingabeaufforderung reagieren, und dann ein Elo-Rating-System zu verwenden, um eine Gesamtwertung der einzelnen Textabschnitte im Vergleich zueinander zu erstellen. Ein einfaches System könnte es Nutzern ermöglichen, für jede Ausgabe einen „Daumen hoch“ oder „Daumen runter“ zu vergeben, wobei die Ausgaben dann nach ihrer relativen Beliebtheit geordnet werden. Komplexere Systeme könnten von den Kennzeichnern verlangen, eine Gesamtbewertung abzugeben und kategorische Fragen zu den Mängeln jeder Antwort zu beantworten, und dieses Feedback dann algorithmisch zu einer gewichteten Qualitätsbewertung zusammenzufassen.
Die Ergebnisse der verschiedenen Bewertungssysteme werden schließlich in ein skalares Belohnungssignal umgewandelt, um das Belohnungsmodell zu trainieren.