O que é aprendizado de reforço com feedback humano (RLHF)?

Publicado em: 10 de novembro de 2023
Colaboradores: Dave Bergmann

O que é RLHF?

O aprendizado por reforço a partir do feedback humano (RLHF) é uma técnica de aprendizado de máquina na qual um "modelo de recompensa" é treinado com feedback humano direto e, em seguida, utilizado para otimizar o desempenho de um agente de inteligência artificial por meio do aprendizado por reforço.

A RLHF, também chamada de aprendizagem por reforço a partir das preferências humanas, é especialmente adequado para tarefas com objetivos complexos, mal definidos ou difíceis de especificar. Por exemplo, seria impraticável (ou mesmo impossível) para uma solução algorítmica definir “engraçado” em termos matemáticos, mas seria fácil para os humanos avaliarem as piadas geradas por um grande modelo de linguagem (LLM). Esse feedback humano, convertido em uma função de recompensa, poderia então ser usado para melhorar as habilidades de escrita de piadas da LLM.

Em um artigo de 2017, Paul F. Christiano, da OpenAI, juntamente com outros pesquisadores da OpenAI e DeepMind, detalhou o sucesso do ARFH (Aprendizado por Reforço a partir do Feedback Humano) no treinamento de modelos de IA para realizar tarefas intricadas, como jogos Atari e locomoção robótica simulada.¹ Expandindo essa conquista, os videogames continuaram sendo um importante campo de prova para o ARFH: até 2019, sistemas de IA treinados com ARFH, como OpenAI Five e AlphaStar da DeepMind, haviam derrotado os principais jogadores profissionais humanos nos muito mais complexos Dota 2² e StarCraft³, respectivamente.

Talvez o mais importante seja que o artigo de 2017 da OpenAI observou que a sua metodologia, particularmente a introdução do algoritmo de otimização de políticas proximais (PPO) para atualizar os pesos do modelo, reduziu significativamente o custo de coletar e sintetizar o feedback humano necessário. Isso abriu caminho para a eventual integração da RLHF com o campo do processamento de linguagem natural (PLN), com os avanços resultantes ajudando a posicionar tanto os LLMs quanto a RLHF na vanguarda da pesquisa em IA.

A primeira versão do código detalhando o uso de RLHF em modelos de linguagem surgiu em 2019 com a OpenAI⁴, que lançou o InstructGPT treinado por RLHF no início de 2022.⁵ Este foi um passo importante para preencher a lacuna entre o GPT-3 e o GPT-3.5-turbo, modelos que impulsionaram o lançamento do ChatGPT.

Desde então, a RLHF tem sido usado no treinamento de LLMs de última geração da OpenAI, DeepMind, Google⁶ e Anthropic.⁷

Crie fluxos de trabalho de IA responsáveis com controle de IA

Aprenda os fundamentos e as melhores práticas para ajudar suas equipes a acelerar a IA responsável.

Conteúdo relacionado

Cadastre-se para receber o guia sobre modelos de base

Como funciona a aprendizagem por reforço

Conceitualmente, o aprendizado por reforço (RL) visa emular a maneira como os seres humanos aprendem: os agentes de IA aprendem de forma holística por meio de tentativa e erro, motivados por fortes incentivos para o sucesso.

Para colocar essa estratégia em prática, um framework matemático para aprendizagem por reforço compreende os seguintes componentes:

Espaço de estado

O espaço de estado são todas as informações disponíveis sobre a tarefa em questão que são relevantes para as decisões que o agente de IA pode tomar, incluindo variáveis conhecidas e desconhecidas. O espaço de estado geralmente muda com cada decisão tomada pelo agente.

Espaço de ação

O espaço de ação contém todas as decisões que o agente de IA pode tomar. No contexto de um jogo de tabuleiro, por exemplo, o espaço de ação é discreto e bem definido: consiste em todos os movimentos legais disponíveis para o jogador de IA em um determinado momento. No contexto da geração de texto, o espaço de ação é enorme, compreendendo todo o "vocabulário" de tokens disponíveis para um LLM.

Função de recompensa

Recompensa é a medida do sucesso ou progresso que incentiva o agente de IA. Em alguns casos, como jogos de tabuleiro, definir o sucesso - neste caso, vencer o jogo - é objetivo e direto. Mas quando a definição de "sucesso" é nebulosa, projetar uma função de recompensa eficaz pode ser um grande desafio. Em um framework matemático, este feedback deve ser interpretado como um sinal de recompensa: uma quantificação em escala de feedback positivo (ou negativo).

Restrições

Uma função de recompensa pode ser complementada por penalidades,recompensas negativas, para ações consideradas contraproducentes para a tarefa em questão. Por exemplo, uma empresa pode querer proibir um chatbot de usar palavrões ou outra linguagem vulgar; um modelo de carro autônomo pode ser penalizado por colisões ou por sair da pista.

Política

Uma política é, essencialmente, a estratégia ou o "processo de pensamento" que impulsiona o comportamento de um agente de IA. Em termos matemáticos simples, uma política (“π”) é uma função que recebe um estado (“s”) como input e retorna uma ação (“a”): π(s)→a.

O objetivo de um algoritmo de RL é otimizar uma política para gerar o máximo de recompensa. No aprendizado por reforço profundo, a política é representada como uma rede neural, que é continuamente atualizada, de acordo com a função de recompensa, durante o processo de treinamento. O agente de IA aprende com a experiência, assim como os humanos.

Embora o RL convencional tenha obtido resultados impressionantes no mundo real em muitos campos, pode ter dificuldades para construir efetivamente uma função de recompensa para tarefas complexas em que é difícil estabelecer uma definição clara de sucesso. A principal vantagem da RLHF é sua capacidade de captar nuances e subjetividade usando feedback humano positivo em vez de objetivos formalmente definidos.

RLHF para grandes modelos de linguagem

Uma das aplicações mais proeminentes da RLHF tem sido aumentar a relevância, a precisão e a ética dos LLMs, especialmente para seu uso como chatbots.

Os LLMs, como todos os modelos de IA generativos, visam replicar a distribuição de probabilidades de dados de treinamento. Embora avanços recentes tenham promovido o uso de LLMs como mecanismos para chatbots, ou mesmo como mecanismos de raciocínio para IA de uso geral, esses modelos de linguagem estão simplesmente usando padrões aprendidos com seus dados de treinamento para prever a(s) próxima(s) palavra(s) em uma determinada sequência, que é iniciada por uma solicitação. Em um nível fundamental, esses modelos não respondem a uma solicitação: eles estão adicionando texto a ela. 

Sem instruções muito específicas, os modelos de linguagem têm pouca capacidade de entender a intenção do usuário. Embora a engenharia de prompts possa ajudar a fornecer o contexto necessário para que um LLM dê uma resposta às necessidades do usuário, é impraticável exigir a engenharia de prompts para cada troca com um chatbot.

Além disso, embora os LLMs prontos para uso tenham sido treinados com métodos convencionais para produzir resultados gramaticalmente coerentes, o treinamento de LLMs para produzir resultados "bons" é um problema enigmático. Conceitos como verdade, utilidade, criatividade ou até mesmo o que torna um trecho de código executável são muito mais dependentes do contexto do que os significados das palavras e a estrutura linguística.

Para tornar os modelos de linguagem melhores na interação humana, os cientistas de dados recorreram ao aprendizado por reforço com feedback humano. Os modelos InstructGPT aprimorados por RLHF superaram significativamente seus antecessores do GPT-3, especialmente em termos de seguir instruções, manter a precisão dos fatos e evitar alucinações do modelo.⁵ Da mesma forma, uma pesquisa divulgada pela OpenAI após o lançamento do GPT-4 mostrou que a RLHF dobrou a precisão em perguntas contraditórias.⁸

Os benefícios da RLHF podem até substituir o valor de conjuntos de dados de treinamento maiores, permitindo um desenvolvimento de modelo mais eficiente em termos de dados: a OpenAI observou que seus rotuladores preferiram saídas da versão de 1,3B de parâmetros do InstructGPT até mesmo em relação às saídas da versão de 175B de parâmetros do GPT-3.⁵

Como funciona a RLHF?

O treinamento de um LLM com RLHF geralmente ocorre em quatro fases:

Modelos pré-treinados

A RLHF costuma ser empregada para refinar e otimizar um modelo pré-treinado, em vez de ser um método de treinamento ponta a ponta. Por exemplo, o InstructGPT usou RLHF para aprimorar o modelo GPT pré-existente, ou seja, transformador pré-treinado generativo . Em seu anúncio de lançamento do InstructGPT, a OpenAI afirmou que “uma maneira de pensar sobre esse processo é que ele 'libera' recursos que o GPT-3 já possuía, mas que eram difíceis de obter apenas por meio de engenharia de prompt”.⁵

O pré-treinamento continua sendo, de longe, a fase da RLHF que mais utiliza recursos. A OpenAI observou que o processo de treinamento da RLHF para o InstructGPT envolveu menos de 2% da computação e dos dados necessários para o pré-treinamento do GPT-3.

Refinamento supervisionado

Antes do início do aprendizado direto de reforço, o ajuste fino supervisionado (SFT) é usado para priorizar o modelo para gerar suas respostas no formato esperado pelos usuários.

Conforme mencionado anteriormente, o processo de pré-treinamento do LLM otimiza os modelos para conclusão: a previsão das próximas palavras em uma sequência começou com a solicitação do usuário, replicando padrões linguísticos aprendidos durante o pré-treinamento do modelo. Às vezes, os LLMs não completam uma sequência da maneira que o usuário deseja: por exemplo, se a solicitação do usuário for “me ensine como fazer um currículo”, o LLM pode responder com “usando o Microsoft Word.” É uma maneira válida de concluir a frase, mas não está alinhada com o objetivo do usuário.

O SFT, portanto, usa o aprendizado supervisionado para treinar modelos para responder adequadamente a diferentes tipos de solicitações. Especialistas humanos criam exemplos rotulados, seguindo o formato (solicitação, resposta), para demonstrar como responder a solicitações para diferentes casos de uso, como resposta a perguntas, resumo ou tradução.

Esses dados de demonstração, embora poderosos, são demorados e caros para gerar. Em vez de criar novos exemplos personalizados, a DeepMind introduziu a abordagem de "aplicar uma heurística de filtragem baseada em um formato de diálogo escrito comum (estilo 'transcrição de entrevista')" para isolar pares de exemplos de solicitação/resposta adequados em seu conjunto de dados MassiveWeb. ⁹

Treinamento do modelo de recompensa

Para que o feedback humano potencialize uma função de recompensa na aprendizagem por reforço, é necessário um modelo de recompensa para traduzir a preferência humana em um sinal numérico de recompensa. Projetar um modelo de recompensa eficaz é um passo crucial na RLHF, pois não existe uma fórmula lógica ou matemática direta para definir viavelmente valores humanos subjetivos.

O principal objetivo desta fase é fornecer ao modelo de recompensa dados de treinamento suficientes, compostos por feedback direto dos avaliadores humanos, para ajudar o modelo a aprender a imitar a maneira como as preferências humanas alocam recompensas a diferentes tipos de respostas do modelo. Isso permite que o treinamento continue off-line sem a presença de uma pessoa no circuito.

Um modelo de recompensa deve receber uma sequência de texto e gerar um valor em escala de recompensa que preveja, numericamente, quanto um usuário humano recompensaria (ou penalizaria) aquele texto. O fato de essa saída ser um valor em escala é essencial para que a saída do modelo de recompensa seja integrada a outros componentes do algoritmo de RL.

Embora possa parecer mais intuitivo simplesmente ter avaliadores humanos expressando sua opinião de cada resposta de modelo em formato de escala, como avaliar a resposta em uma escala de um (pior) a dez (melhor), é muito difícil obter a concordância de todos os avaliadores humanos sobre o valor relativo de uma determinada pontuação, muito menos obter a concordância dos avaliadores humanos sobre o que constitui uma resposta "boa" ou "ruim" em um vácuo. Isso pode fazer com que a classificação em escala direta seja confusa e desafiadora para calibrar.

Em vez disso, um sistema de classificação é geralmente construído comparando o feedback humano para diferentes saídas do modelo. Um método comum é fazer com que os usuários comparem duas sequências de texto análogas, como a saída de dois modelos de idioma diferentes respondendo a mesma solicitação, em duelos diretos e, em seguida, usem um sistema de classificação Elo para gerar uma classificação agregada de cada bit de texto gerado em relação aos demais. Um sistema simples pode permitir que os usuários usem o "polegar para cima" ou "polegar para baixo" em cada saída, com as saídas sendo então classificadas por sua favorabilidade relativa. Sistemas mais complexos podem pedir aos rotuladores que forneçam uma classificação geral e respondam a perguntas categóricas sobre as falhas de cada resposta e , em seguida, agregar algoritmicamente esse feedback em uma pontuação de qualidade ponderada.

Os resultados de qualquer sistema de classificação são, por fim, normalizados em um sinal de recompensa em escala para informar o treinamento de modelo de recompensa.

Otimização de políticas

O último obstáculo da RLHF é determinar como, e quanto, o modelo de recompensa deve ser usado para atualizar a política do agente de IA. Um dos algoritmos mais bem-sucedidos usados para a função de recompensa que atualiza os modelos de RL é a otimização de política proximal (PPO).

Ao contrário da maioria das arquiteturas de modelos de aprendizado de máquina e de rede neural, que usam descendência gradiente para minimizar sua função de perda e produzir o menor erro possível, os algoritmos de aprendizado por reforço geralmente usam ascendência gradiente para maximizar a recompensa.

No entanto, se a função de recompensa for usada para treinar o LLM sem qualquer proteção, o modelo de linguagem pode mudar drasticamente seus pesos a ponto de produzir algo sem sentido em um esforço para “jogar” com o modelo de recompensa. A PPO fornece um meio mais estável de atualização da política do agente de IA, limitando o quanto a política pode ser atualizada em cada iteração de treinamento.

Primeiro, uma cópia do modelo inicial é criada e seus pesos treináveis são congelados. O algoritmo PPO calcula um intervalo de [1-ε, 1+ε], no qual ε é um hiperparâmetro que determina aproximadamente até que ponto a nova política (atualizada) pode se desviar da política antiga (congelada). Em seguida, calcula uma razão da probabilidade: a razão da probabilidade de uma determinada ação a ser tomada pela política antiga versus a probabilidade dessa ação ser tomada pela nova política. Se a razão da probabilidade for superior a 1+ε (ou inferior a 1-ε), a magnitude da atualização da política pode ser reduzida para evitar quaisquer mudanças bruscas que possam desestabilizar todo o modelo.

A introdução da PPO forneceu uma alternativa atraente ao seu antecessor, a otimização da política de região de confiança (TRPO), que oferece benefícios semelhantes, mas é mais complicada e computacionalmente mais cara do que a PPO. Enquanto outros frameworks de otimização de políticas, como o advantage actor-critic (A2C), também são viáveis, a PPO é muitas vezes preferida como uma metodologia simples e econômica.

Limitações da RLHF

Embora os modelos de RLHF tenham demonstrado resultados impressionantes no treinamento de agentes de IA para tarefas complexas, desde robótica e videogames até PNL, o uso de RLHF tem suas limitações.

Os dados de preferências humanas são caros. A necessidade de reunir input humano em primeira mão pode criar um gargalo dispendioso que limita a escalabilidade do processo RLHF. Tanto o Anthropic¹⁰ quanto o Google¹¹ propuseram métodos de aprendizagem por reforço a partir do feedback de IA (RLAIF), substituindo parte ou todo o feedback humano por outro LLM avaliando as respostas do modelo, que apresentaram resultados comparáveis aos da RLHF.

O input humano é altamente subjetivo. É difícil, se não impossível, estabelecer um consenso sobre o que constitui um resultado de “alta qualidade”, pois os colaboradores humanos geralmente discordam não apenas sobre os fatos alegados, mas também sobre o que o comportamento “apropriado” do modelo deve significar. A discordância humana, portanto, impede o consenso de uma “verdade fundamental” genuína pela qual o desempenho do modelo pode ser julgado.

Os avaliadores humanos podem falhar, ou até mesmo serem intencionalmente adversários e maliciosos. Seja refletindo visões contrárias genuínas ou prejudicando intencionalmente o processo de aprendizagem, a orientação humana para o modelo nem sempre é fornecida de boa fé. Em um artigo de 2016, a Wolf, manifestou que o comportamento tóxico deveria ser uma expectativa fundamental das interações entre humanos e bots e sugeriu a necessidade de um método para avaliar a credibilidade do input humano.¹² Em 2022, a Meta AI lançou um artigo sobre o input humano adversarial (link reside fora da ibm.com) estudando métodos automatizados "para obter máxima eficiência de aprendizado a partir de dados de alta qualidade, ao mesmo tempo em que se mantém a máxima robustez em relação a dados de baixa qualidade e adversariais". O artigo identifica vários arquétipos de “trolls” e as diferentes maneiras pelas quais eles distorcem os dados de feedback.

A RLHF apresenta riscos de sobreajuste e viés. Se o feedback humano for coletado a partir de um grupo demográfico muito restrito, o modelo pode demonstrar problemas de desempenho quando utilizado por diferentes grupos, ou quando solicitado sobre assuntos para os quais os avaliadores humanos têm certos vieses.

Soluções relacionadas

watsonx.ai

Treine, valide, ajuste e implemente IA generativa, modelos de base e recursos de aprendizado de máquina com facilidade, além de criar aplicativos de IA em uma fração do tempo com uma fração dos dados.

Explore o watsonx.ai

Recursos da RLHF

Comece com APIs de aprendizado por reforço on-line

Este caminho de aprendizagem fornece uma visão geral do aprendizado por reforço automatizado e demonstra o uso de APIs de IA automatizada para tomada de decisões para dar suporte a casos de uso gerais de aprendizado por reforço on-line.

Treinar um agente de software para se comportar racionalmente com aprendizagem por reforço

Aprenda a história e os princípios essenciais da aprendizagem por reforço e, em seguida, construa uma demonstração simples usando a técnica "Q learning". Amostra de implementação incluída.

Como a IBM Consulting traz uma abordagem de valor e responsável à IA

Na primeira e segunda parte desta série de três partes, analisamos as definições e os casos de uso de IA generativa. Esta edição explora a abordagem que a IBM Consulting adota ao embarcar em projetos de IA.

Dê o próximo passo

Treine, valide, ajuste e implemente IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de próxima geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai

Agende uma demonstração em tempo real

Notas de rodapé

¹ "Deep reinforcement learning from human preferences," (link reside fora ibm.com) arXiv, revisado pela última vez em 17 de fevereiro de 2023
² "OpenAI Five defeats Dota 2 world champions" (link reside fora ibm.com) OpenAI, 15 de abril de 2019.
³ "AlphaStar: Mastering the real-time strategy game StarCraft II" (link reside fora ibm.com) Google DeepMind, 24 de janeiro de 2019
⁴ "lm-human-preferences"(link reside fora ibm.com) OpenAI (no GitHub), 2019
⁵ "Aligning language models to follow instructions" (link reside fora ibm.com) OpenAI, 27 de janeiro de 2022
⁶ "An overview of Bard: an early experiment with generative AI"(link reside fora ibm.com) Google AI, última atualização em 19 de outubro de 2023
⁷ "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback", (link reside fora ibm.com) arXiv, 12 de abril de 2022
⁸ "Research: GPT-4," (link reside fora ibm.com) OpenAI, 14 de março de 2023
⁹ "Scaling Language Models: Methods, Analysis &Insights from Training Gopher", (link reside fora do ibm.com) arXiv, revisado pela última vez em 21 de janeiro de 2022
¹⁰ "Constitutional AI: Harmlessness from AI Feedback", (link reside fora ibm.com) Anthropic, 15 de dezembro de 2022
¹¹ "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback," (link reside fora ibm.com) arXiv, 1.º de setembro de 2023
¹² "Why We Should Have Seen That Coming: Comments on Microsoft's Tay 'Experiment' and Wider Implications" (link reside fora ibm.com) The ORBIT Journal, 2017