¿Qué es el aprendizaje reforzado a partir de la retroalimentación humana (RLHF)?

Publicado el: 10 de noviembre de 2023
Colaboradores: Dave Bergmann

¿Qué es el RLHF?

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es una técnica de aprendizaje automático en la que se entrena a un “modelo de recompensa” con retroalimentación humana directa y luego se utiliza para optimizar el rendimiento de un agente de inteligencia artificial a través del aprendizaje por refuerzo.

El RLHF, también llamado aprendizaje por refuerzo a partir de preferencias humanas, es especialmente adecuado para tareas con objetivos complejos, que están mal definidos o son difíciles de especificar. Por ejemplo, sería poco práctico (o incluso imposible) que una solución algorítmica definiera “divertido” en términos matemáticos, pero sería fácil para los humanos calificar los chistes generados por un modelo de lenguaje de gran tamaño (LLM). Esa retroalimentación humana, vertida en una función de recompensa, podría usarse para mejorar las habilidades de escritura de bromas de los LLM.

En un artículo de 2017, Paul F. Christiano, de OpenAI, junto con otros investigadores de OpenAI y DeepMind, detalló el éxito de RLHF en el entrenamiento de modelos de IA para realizar tareas intrincadas, como juegos de Atari y locomoción robótica simulada^.1 Ampliando este avance, los videojuegos continuaron siendo un importante campo de pruebas para RLHF: en 2019, los sistemas de IA entrenados por RLHF, como OpenAI Five y AlphaStar de DeepMind, habían derrotado a los mejores jugadores profesionales humanos en los mucho más complejos Dota²² y^StarCraft3, respectivamente.

Quizás lo más importante es que el documento de OpenAI de 2017 señalaba que su metodología, en particular la introducción del algoritmo de optimización de política proximal (PPO) para actualizar las ponderaciones del modelo, reducía enormemente el costo de recopilar y verter la información humana necesaria. Esto allanó el camino para la integración final del RLHF con el campo del procesamiento de lenguaje natural (PLN), y los avances resultantes ayudaron a situar tanto a las LLM como al RLHF en la vanguardia de la investigación sobre IA.

La primera versión del código que detalla el uso del RLHF en modelos de lenguaje fue en 2019 y provenía de OpenAI⁴, quien lanzó InstructGPT entrenado con RLHF a principios de 2022.⁵ Este fue un paso crucial para cerrar la brecha entre GPT-3 y el GPT-3.5-turbo, los modelos que impulsaron el lanzamiento de ChatGPT.

Desde entonces, RLHF se ha utilizado en el entrenamiento de LLM de última generación de OpenAI, DeepMind, Google⁶ y Anthropic.⁷

Desarrolle flujos de trabajo de IA responsables con gobernanza de IA

Conozca los componentes básicos y las mejores prácticas para ayudar a sus equipos a acelerar la IA responsable.

Contenido relacionado

Regístrese para obtener la guía sobre modelos fundacionales

Cómo funciona el aprendizaje por refuerzo

Conceptualmente, el aprendizaje por refuerzo (RL) tiene como objetivo emular la forma en que aprenden los seres humanos: los agentes de IA aprenden de manera holística a través de prueba y error, motivados por fuertes incentivos para tener éxito.

Para poner en práctica esta estrategia, se requiere un marco matemático para el aprendizaje por refuerzo, que comprende los siguientes elementos:

Espacio de estado

El espacio de estado es toda la información disponible sobre la tarea que es relevante para las decisiones que el agente de IA puede tomar, incluidas las variables conocidas y desconocidas. El espacio de estado suele cambiar con cada decisión que toma el agente.

Espacio de acción

El espacio de acción contiene todas las decisiones que puede tomar el agente de IA. En el contexto de un juego de mesa, por ejemplo, el espacio de acción es discreto y está bien definido: consiste en todos los movimientos legales disponibles para el jugador de IA en un momento dado. En el contexto de la generación de texto, el espacio de acción es masivo, ya que integra todo el “vocabulario” de los tokens disponibles para un LLM.

Función de recompensa

La recompensa es la medida del éxito o el progreso que incentiva al agente de IA. En algunos casos, como en los juegos de mesa, definir el éxito (en este caso, ganar la partida) es objetivo y sencillo. Pero cuando la definición de “éxito” es confusa, diseñar una función de recompensa efectiva puede ser un desafío significativo.En un marco matemático, esta retroalimentación debe traducirse en una señal de recompensa: una cuantificación escalar de retroalimentación positiva (o negativa).

Restricciones

Una función de recompensa podría complementarse con sanciones (recompensas negativas) por acciones consideradas contraproducentes para la tarea en cuestión.Por ejemplo, una empresa podría querer prohibir a un chatbot el uso de blasfemias u otro lenguaje vulgar; un modelo de coche autoconducido puede ser penalizado por colisiones o por salirse de un carril.

Policy

Una política es, básicamente, la estrategia o “proceso de pensamiento” que impulsa el comportamiento de un agente AI .En términos matemáticos simples, una política (“π”) es una función que toma un estado (“s”) como entrada y devuelve una acción(“a”): π (s) →a .

El objetivo de un algoritmo de RL es optimizar una política para obtener una recompensa máxima. En el aprendizaje profundo por refuerzo, la política se representa como una red neuronal que se actualiza continuamente, según la función de recompensa, durante el proceso de entrenamiento. El agente de IA aprende de la experiencia, al igual que los humanos.

Si bien el RL convencional ha logrado resultados impresionantes en el mundo real en muchos campos, puede resultar difícil construir de manera efectiva una función de recompensa para tareas complejas donde es difícil establecer una definición clara de éxito. La principal ventaja del RLHF es su capacidad para capturar matices y subjetividad mediante el uso de comentarios positivos humanos en lugar de objetivos definidos formalmente.

RLHF para los modelos de lenguaje de gran tamaño

Una de las aplicaciones más destacadas del RLHF ha sido mejorar la relevancia, precisión y ética de los LLM, sobre todo para su uso como chatbots.

Los LLM, como todos los modelos de IA generativa, tienen como objetivo replicar la distribución de probabilidad de los datos de entrenamiento. Aunque los recientes avances han dado lugar al uso de LLM como motores para chatbots, o incluso como motores de razonamiento para IA de propósito general, estos modelos de lenguaje simplemente utilizan patrones aprendidos de sus datos de entrenamiento para predecir las siguientes palabras en una secuencia dada que se inicia mediante una indicación. En un nivel fundamental, estos modelos en realidad no responden a una indicación: le agregan texto. 

Sin instrucciones muy específicas, los modelos de lenguaje tienen poca capacidad para comprender la intención del usuario. Aunque la ingeniería de rápida puede ayudar a proporcionar el contexto necesario para que un LLM responda a las necesidades de un usuario, no es práctico exigir ingeniería rápida para cada intercambio con un chatbot.

Además, si bien los LLM innovadores han sido entrenados con métodos convencionales para producir resultados gramaticalmente coherentes, capacitar a los LLM para que produzcan resultados “buenos” es un problema enigmático.Conceptos como verdad, utilidad, creatividad o incluso lo que hace que un fragmento de código sea ejecutable dependen mucho más del contexto que el significado de las palabras y la estructura lingüística.

Para mejorar los modelos de lenguaje en la interacción humana, los científicos de datos recurrieron al aprendizaje por refuerzo a partir de la información humana. Los modelos de InstructGPT mejorados con RLHF superaron significativamente a sus predecesores GPT-3, en especial en términos de seguir instrucciones, mantener la precisión de los hechos y evitar las alucinaciones del modelo.⁵ De igual manera, una investigación publicada por OpenAI tras el lanzamiento de GPT-4 mostró que el RLHF duplicó la precisión en cuestiones adversarias.⁸

Los beneficios del RLHF pueden incluso reemplazar el valor de conjuntos de datos de entrenamiento más grandes, lo que permite un desarrollo de modelos más eficiente en datos: OpenAI señaló que sus etiquetadoras preferían los resultados de la versión de parámetro 1.3B de InstructGPT en lugar de los de la versión 175B de GPT-3.⁵

¿Cómo funciona el RLHF?

El entrenamiento de un LLM con RLHF suele ocurrir en cuatro fases:

Modelos previos al entrenamiento

El RLHF generalmente se emplea para ajustar y optimizar un modelo previamente entrenado, en lugar de como un método de entrenamiento de extremo a extremo. Por ejemplo, InstructGPT utilizó RLHF para mejorar el GPT preexistente, es decir, el modelo de transformador generativo entrenado previamente. En su anuncio de lanzamiento de InstructGPT, OpenAI declaró que “una forma de pensar en este proceso es que 'desbloquea' capacidades que GPT-3 ya tenía, pero que eran difíciles de obtener solo a través de la ingeniería de indicaciones”.⁵

El entrenamiento previo sigue siendo, por mucho, la fase del RLHF que requiere más recursos. OpenAI observó que el proceso de entrenamiento de RLHF para InstructGPT implicó menos del 2 por ciento del cálculo y los datos necesarios para la capacitación previa de GPT-3.

Ajuste supervisado

Antes del inicio del aprendizaje por refuerzo explícito, se utiliza el ajuste supervisado (SFT) para preparar el modelo para generar sus respuestas en el formato que esperan los usuarios.

Como se mencionó anteriormente, el proceso de preentrenamiento de LLM optimiza los modelos para su finalización: la predicción de las siguientes palabras en una secuencia comenzó con la indicación del usuario al replicar los patrones lingüísticos aprendidos durante el preentrenamiento del modelo. A veces, los LLM no completan una secuencia de la manera que el usuario desea: por ejemplo, si el mensaje de un usuario es “enséñame cómo hacer un currículum”, el LLM podría responder con “con Microsoft Word”. Es una forma válida de completar la oración, pero no está alineada con el objetivo del usuario.

Por lo tanto, SFT utiliza el aprendizaje supervisado para entrenar a los modelos a fin de responder adecuadamente a diferentes tipos de mensajes. Los expertos humanos crean ejemplos etiquetados, siguiendo el formato (mensaje, respuesta), para demostrar cómo responder a mensajes para diferentes casos de uso, como respuesta a preguntas, resúmenes o traducción.

Estos datos de demostración, si bien son poderosos, requieren mucho tiempo y son costosos de generar.En lugar de crear nuevos ejemplos personalizados, DeepMind introdujo el enfoque de “aplicar una heurística de filtrado basada en un formato de diálogo escrito común (estilo 'transcripción de la entrevista')” para aislar pares de ejemplos de pregunta/respuesta adecuados dentro de su conjunto de datos MassiveWeb .⁹

Entrenamiento del modelo de recompensas

Para que la retroalimentación humana alimente una función de recompensa en el aprendizaje por refuerzo, se necesita un modelo de recompensa que traduzca la preferencia humana en una señal numérica de recompensa. Diseñar un modelo de recompensa eficaz es un paso crucial en el RLHF, ya que no existe una fórmula matemática u lógica directa para definir valores humanos subjetivos y factibles.

El objetivo principal de esta fase es proporcionar el modelo de recompensa con suficientes datos de entrenamiento, compuestos por comentarios directos de los evaluadores humanos, para ayudar al modelo a imitar la forma en que las preferencias humanas asignan recompensas a diferentes tipos de respuestas del modelo. Esto permite que el entrenamiento continúe fuera de línea sin que haya un ser humano al tanto.

Un modelo de recompensa debe ingerir una secuencia de texto y emitir un valor de recompensa escalar que prediga, numéricamente, cuánto recompensaría (o penalizaría) ese texto un usuario humano. El hecho de que el resultado sea un valor escalar es esencial para que el resultado del modelo de recompensa se integre con otros componentes del algoritmo RL.

Aunque pueda parecer más intuitivo pedir a los evaluadores humanos que expresen su opinión sobre cada respuesta del modelo de forma escalar (como calificar la respuesta en una escala de uno [peor] a diez [mejor]), es extremadamente difícil conseguir que todos los evaluadores humanos coincidan en el valor relativo de una puntuación dada, y mucho menos conseguir que los evaluadores humanos coincidan en lo que constituye una respuesta “buena” o “mala” en el vacío. Esto puede hacer que la clasificación escalar directa sea ruidosa y difícil de calibrar.

En cambio, un sistema de calificación generalmente se construye comparando la retroalimentación humana para diferentes resultados del modelo. Un método común es hacer que los usuarios comparen dos secuencias de texto análogas (como el resultado de dos modelos de lenguaje diferentes que responden al mismo mensaje) en enfrentamientos cara a cara, y luego usar un sistema de clasificación Elo para generar una clasificación agregada de cada bit de texto generado entre sí. Un sistema sencillo podría permitir a los usuarios “aceptar” o “rechazar” cada resultado, y los resultados se clasificarán por su relativa favorabilidad. Los sistemas más complejos podrían pedir a los etiquetadores que proporcionen una calificación general y respondan preguntas categóricas sobre los defectos de cada respuesta, luego agregar algorítmicamente esta retroalimentación en una puntuación de calidad ponderada.

Los resultados de cualquier sistema de clasificación se normalizan finalmente en una señal de recompensa escalar para informar el entrenamiento del modelo de recompensa.

Optimización de políticas

El obstáculo final del RLHF es determinar cómo se debe utilizar el modelo de recompensa para actualizar la política del agente de IA. Uno de los algoritmos más exitosos utilizados para la función de recompensa que actualiza los modelos de RL es la optimización de políticas cercanas (PPO).

A diferencia de la mayoría de las arquitecturas de modelos de aprendizaje automático y redes neuronales, que utilizan el descenso de gradiente para minimizar su función de pérdida y producir el menor error posible, los algoritmos de aprendizaje por refuerzo suelen utilizar el ascenso de gradiente para maximizar la recompensa.

Sin embargo, si la función de recompensa se utiliza para entrenar el LLM sin barreras de seguridad, el modelo de lenguaje puede cambiar dramáticamente sus ponderaciones hasta el punto de generar texto incomprensible en un esfuerzo por “jugar” con el modelo de recompensa. PPO proporciona un medio más estable para actualizar la política del agente de IA al limitar cuánto se puede actualizar la política en cada iteración de entrenamiento.

En primer lugar, se crea una copia del modelo inicial y sus ponderaciones entrenables se congelan. El algoritmo de PPO calcula un rango de [1-ε, 1+ε], en el que ε es un hiperparámetro que determina aproximadamente qué tan lejos se permite que la nueva política (actualizada) se desvíe de la política anterior (congelada).A continuación, calcula un cociente de probabilidades: el cociente entre la probabilidad de que una determinada acción sea llevada a cabo por la antigua política y la probabilidad de que esa acción sea llevada a cabo por la nueva política. Si la relación de probabilidad es superior a 1+ε (o inferior a -1ε), la magnitud de la actualización de la política puede recortarse para evitar cambios bruscos que puedan desestabilizar todo el modelo.

La introducción de PPO proporcionó una alternativa atractiva a su predecesora, la optimización de políticas de región de confianza (TRPO), que proporciona beneficios similares pero es más complicada y costosa que PPO desde el punto de vista computacional. Aunque también son viables otros marcos de optimización de políticas, como la ventaja actor-crítica (A2C), a menudo se favorece la PPO por ser una metodología sencilla y rentable.

Limitaciones del RLHF

Aunque los modelos de RLHF han demostrado resultados impresionantes en entrenamiento de agentes de IA para tareas complejas, desde robótica y videojuegos hasta NLP, el uso de RLHF no está libre de limitaciones.

Los datos sobre preferencias humanas son costosos. La necesidad de recopilar información humana de primera mano puede crear un costoso cuello de botella que limita la escalabilidad del proceso de RLHF. Tanto Anthropic¹⁰ como Google¹¹ han propuesto métodos de aprendizaje por refuerzo a partir de la retroalimentación de IA (RLAIF), reemplazando parte o toda la retroalimentación humana al hacer que otro LLM evalúe las respuestas del modelo, que han arrojado resultados comparables a los de RLHF.

El aporte humano es muy subjetivo. Es difícil, si no imposible, establecer un consenso firme sobre lo que constituye un resultado de “alta calidad”, ya que los anotadores humanos a menudo no estarán de acuerdo no solo en los supuestos hechos, sino también en lo que debería significar el comportamiento “apropiado” del modelo.Por lo tanto, el desacuerdo humano impide la realización de una “verdad fundamental” genuina contra la cual se puede juzgar el desempeño del modelo.

Los evaluadores humanos pueden ser falibles, o incluso intencionalmente adversarios y maliciosos.Ya sea que refleje perspectivas contrarias genuinas o que troleé intencionalmente el proceso de aprendizaje, la orientación humana al modelo no siempre se proporciona de buena fe. En un artículo de 2016, Wolf et al plantearon que el comportamiento tóxico debería ser una expectativa fundamental de las interacciones entre humanos y robots, y sugirieron la necesidad de un método para evaluar la credibilidad de la información humana.¹² En 2022, Meta AI publicó un artículo sobre la información humana adversa (enlace externo ibm.com) en el que se estudian métodos automatizados “para obtener la máxima eficiencia de aprendizaje a partir de datos de alta calidad y, al mismo tiempo, la máxima solidez frente a datos adversos y de baja calidad”. El artículo identifica varios arquetipos de “trolls” y las diferentes formas en que distorsionan los datos de retroalimentación.

El RLHF corre el riesgo de sobreajuste y sesgo. Si la retroalimentación humana se obtiene de un grupo demográfico demasiado estrecho, el modelo puede demostrar problemas de desempeño cuando lo utilizan diferentes grupos o se le hacen solicitudes sobre temas para los cuales los evaluadores humanos tienen ciertos sesgos.

Soluciones relacionadas

watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad, y cree aplicaciones de IA en una fracción del tiempo con un fragmento de los datos.

Explore watsonx.ai

Recursos de RLHF

Comience con las API de aprendizaje por refuerzo en línea

Esta ruta de aprendizaje proporciona una visión general del aprendizaje automatizado por refuerzo y demuestra el uso de las API de IA automatizada para la toma de decisiones como apoyo a casos de uso generales de aprendizaje por refuerzo en línea.

Entrene a un agente de software para que se comporte racionalmente con el aprendizaje de refuerzo

Conozca la historia y los principios esenciales del aprendizaje por refuerzo, y luego cree una demostración simple utilizando la técnica de “aprendizaje Q”. Incluye ejemplo de implementación.

Cómo IBM Consulting aporta un enfoque valioso y responsable a la IA

En la primera y segunda parte de esta serie de tres, analizamos las definiciones y los casos de uso de la IA generativa. Esta entrega explora el enfoque que adopta IBM Consulting cuando se embarca en proyectos de IA.

Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Reserve una demostración en vivo

Notas de pie de página

¹ “Deep reinforcement learning from human preferences” (enlace externo a ibm.com) arXiv, última revisión el 17 de febrero de 2023
² "OpenAI Five defeats Dota 2 world champions" (enlace externo a ibm.com)OpenAI, 15 de abril de 2019.
³ “AlphaStar: Mastering the real-time strategy game StarCraft II”, (enlace externo a ibm.com)Google DeepMind, 24 de enero de 2019
⁴ “LM-human-preferences”, (enlace externo a ibm.com) OpenAI (en GitHub), 2019
⁵ “Aligning language models to follow instructions”, (enlace externo a ibm.com)OpenAI, 27 de enero de 2022
⁶ “An overview of Bard: an early experiment with generative AI”,(enlace externo a ibm.com) Google AI, última actualización 19 de octubre de 2023
⁷ “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback”, (enlace externo a ibm.com) arXiv, 12 de abril de 2022
⁸ “Research: GPT-4” (enlace externo a ibm.com)OpenAI, 14 de marzo de 2023
⁹ “Scaling Language Models: Methods, Analysis & Insights from Training Gopher”, (enlace externo a ibm.com) arXiv, última revisión el 21 de enero de 2022
¹⁰ “Constitucional AI: Harmlesness from AI”, (enlace externo a ibm.com)Anthropic, 15 de diciembre de 2022
¹¹ “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback” (enlace externo a ibm.com) arXiv, 1 de septiembre de 2023
¹² “Why We Should Have Seen That Coming: Comments on Microsoft's Tay 'Experiment' and Wider Implications” (enlace externo a ibm.com)The ORBIT Journal, 2017