휴먼 피드백을 통한 강화 학습(RLHF)이란 무엇인가요?

게시: 2023년 11월 10일
기고가: 데이브 버그만(Dave Bergmann)

RLHF란 무엇인가요?

휴먼 피드백을 통한 강화 학습(RLHF)은 인간의 직접적인 피드백으로 '보상 모델'을 학습한 다음 강화 학습을 통해 인공지능 에이전트의 성능을 최적화하는 머신 러닝 기법입니다.

인간 선호도에 따른 강화 학습 이라고도 불리는 RLHF는 복잡하거나, 잘못 정의되거나, 지정하기 어려운 목표를 가진 작업에 특히 적합합니다. 예를 들어, 알고리즘 솔루션이 수학 용어로 '재미있다'를 정의하는 것은 비현실적이거나 불가능할 수도 있지만, 인간이 대규모 언어 모델(LLM)로 생성한 농담을 평가하는 것은 쉽습니다. 인간의 피드백은 보상 함수로 정제되어 LLM의 농담 작성 능력을 향상시키는 데 사용될 수 있습니다.

OpenAI의 폴 F. 크리스티아노(Paul F. Christiano)는 2017년 논문에서 OpenAI와 DeepMind의 다른 연구원들과 함께 수행한 연구에서 Atari 게임 및 시뮬레이션된 로봇 이동과 같은 복잡한 작업을 수행하기 위해 AI 모델을 훈련했을 때 RLHF가 성공한 사례를 자세히 설명했습니다.¹ 이러한 혁신을 바탕으로 비디오 게임은 계속해서 RLHF의 중요한 시험 무대가 되었습니다. 2019년에는 OpenAI Five와 DeepMind의 AlphaStar와 같은 RLHF로 훈련된 AI 시스템이 훨씬 더 복잡한 Dota 2² 및 StarCraft³에서 각각 최고의 인간 프로 플레이어를 물리쳤습니다.

아마도 가장 중요한 것은 OpenAI의 2017년 논문에서 OpenAI의 방법론, 특히 모델 가중치 업데이트를 위한 근사 정책 최적화(PPO) 알고리즘 도입을 통해 필요한 인간 피드백을 수집하고 추출하는 비용을 크게 절감했다는 점입니다. 이는 RLHF와 자연어 처리(NLP) 분야의 궁극적인 통합을 위한 길을 열었으며, 그 결과 LLM과 RLHF를 모두 AI 연구의 선봉으로 이끄는 데 도움이 되었습니다.

언어 모델에서 RLHF를 사용하는 방법을 자세히 설명하는 코드의 첫 번째 릴리스는 2019년 OpenAI⁴에서 출시되었으며, 2022년 초에는 RLHF 교육을 받은 InstructGPT를 출시했습니다.⁵ 이는 ChatGPT 출시에 힘을 실어준 GPT-3와 GPT-3.5 터보 사이의 격차를 해소하는 중요한 단계였습니다.

이후 RLHF는 OpenAI, DeepMind, Google⁶ 및 Anthropic의 최첨단 LLM 교육에 사용되었습니다.⁷

AI 거버넌스로 책임감 있는 AI 워크플로 구축

책임감 있는 AI를 가속화하는 데 도움이 되는 구성 요소와 모범 사례를 알아보세요.

관련 내용

파운데이션 모델 가이드 등록하기

강화 학습의 작동 방식

개념적으로 강화 학습(RL)은 인간이 학습하는 방식을 모방하는 것을 목표로 합니다. 즉 AI 에이전트는 성공에 대한 강력한 인센티브를 통해 시행착오를 거치며 전체적으로 학습합니다.

이러한 전략을 실행에 옮기기 위해 강화 학습을 위한 수학적 프레임워크는 다음과 같은 구성 요소로 구성됩니다.

상태 공간(State Space)

상태 공간은 알려진 변수와 알려지지 않은 변수를 포함하여 AI 에이전트가 내릴 수 있는 결정과 관련된 당면한 작업에 대해 사용 가능한 모든 정보입니다. 상태 공간은 일반적으로 에이전트가 내리는 각각의 결정에 따라 변경됩니다.

작업 공간

작업 공간에는 AI 에이전트가 내릴 수 있는 모든 결정이 포함됩니다. 보드 게임 맥락에서 예를 들어 보면, 작업 공간은 분리되어 있고 잘 정의되어 있습니다. 즉, 주어진 순간에 AI 플레이어가 사용할 수 있는 모든 합법적인 움직임으로 구성됩니다. 텍스트 생성의 맥락에서 볼 때 작업 공간은 방대하며 LLM에서 사용할 수 있는 토큰의 전체 '어휘'를 포함합니다.

보상 함수

보상은 AI 에이전트에게 인센티브를 제공하는 성공 또는 진행 상황을 측정하는 척도입니다. 보드 게임과 같은 경우에는 성공(이 경우 게임 승리)을 정의하는 것이 객관적이고 간단합니다. 그러나 '성공'의 정의가 모호할 경우 효과적인 보상 기능을 설계하는 것은 상당한 도전이 될 수 있습니다. 수학적 프레임워크에서 이러한 피드백은 보상 신호, 즉 양수(또는 음수) 피드백의 스칼라 정량화로 변환되어야 합니다.

제약 조건

보상 기능은 당면 작업에 역효과를 낳는 것으로 간주되는 행동에 대한 페널티(부정적 보상)로 보완될 수 있습니다. 예를 들어, 기업에서는 챗봇이 욕설이나 기타 저속한 언어를 사용하는 것을 금지하고 싶을 수도 있고, 자율주행차 모델이 충돌하거나 차선을 이탈하는 경우 페널티를 받을 수도 있습니다.

정책

정책은 본질적으로 AI 에이전트의 행동을 주도하는 전략 또는 '사고 과정'입니다. 일반 수학 용어로 설명하자면, 정책('π')은 상태('s')를 입력으로 취하고 동작('a')을 반환하는 함수입니다. π(s)→a

RL 알고리즘의 목표는 최대 보상을 얻을 수 있도록 정책을 최적화하는 것입니다. 심층 강화 학습에서 정책은 학습 과정에서 보상 함수에 따라 지속적으로 업데이트되는 신경망으로 표현됩니다. AI 에이전트는 인간과 마찬가지로 경험을 통해 학습합니다.

기존 RL은 많은 분야에서 인상적인 실제 성과를 거두었지만, 성공에 대한 명확한 정의를 내리기 어려운 복잡한 작업에 대한 보상 함수를 효과적으로 구축하는 데는 어려움을 겪을 수 있습니다. RLHF의 주요 장점은 공식적으로 정의된 목표 대신 긍정적인 인간 피드백을 사용하여 뉘앙스와 주관성을 포착하는 능력입니다.

대규모 언어 모델용 RLHF

RLHF의 가장 두드러진 애플리케이션 중 하나는 특히 챗봇으로 사용하기 위해 LLM의 관련성, 정확성 및 윤리성을 향상시키는 것이었습니다.

LLM은 모든 생성형 AI 모델과 마찬가지로 학습 데이터의 확률 분포를 복제하는 것을 목표로 합니다. 최근의 발전으로 인해 LLM을 챗봇의 엔진 또는 범용 AI의 추론 엔진으로도 사용되고 있지만, 이러한 언어 모델은 단순히 학습 데이터에서 학습한 패턴을 사용하여 프롬프트에 의해 시작되는 주어진 순서의 다음 단어를 예측하는 데 사용됩니다. 기본적인 수준에서, 이러한 모델들은 실제로 프롬프트에 응답하는 것이 아니라, 프롬프트에 텍스트를 추가하는 것입니다. 

매우 구체적인 지침이 없으면 언어 모델은 사용자 의도를 이해하는 능력이 거의 없습니다. 프롬프트 엔지니어링은 LLM이 사용자의 요구에 맞게 응답하기 위해 필요한 컨텍스트를 제공하는 데 도움이 될 수 있지만, 챗봇과의 모든 대화에 대해 프롬프트 엔지니어링을 요구하는 것은 비현실적입니다.

또한, 즉시 사용 가능한 LLM은 문법적으로 일관된 결과물을 생성하기 위해 기존의 방법으로 훈련되어 왔지만 '좋은' 결과물을 생성하도록 LLM을 훈련하는 것은 수수께끼 같은 문제입니다. 진실, 유용성, 창의성 또는 심지어 코드 조각을 실행 가능하게 만드는 것과 같은 개념은 단어 의미 및 언어 구조보다 훨씬 더 컨텍스트에 의존합니다.

인간과의 소통에서 더 나은 언어 모델을 만들기 위해 데이터 과학자는 인간 피드백을 통한 강화 학습으로 눈을 돌렸습니다. RLHF로 강화된 InstructGPT 모델은 특히 지침 준수, 사실 정확도 유지, 모델 할루시네이션 방지 측면에서 이전 GPT-3 모델보다 훨씬 뛰어난 성능을 보였습니다.⁵ 마찬가지로, GPT-4 출시와 함께 OpenAI가 발표한 연구에 따르면 RLHF는 적대적인 문제에 대한 정확도를 두 배로 높였습니다.⁸

RLHF의 장점은 더 큰 훈련 데이터 세트의 가치를 대체할 수 있어 데이터 효율성이 높은 모델을 개발할 수 있다는 점입니다. OpenAI는 자사의 레이블러가 175B 파라미터 버전의 GPT-3 결과물보다 InstructGPT의 1.3B 파라미터 버전의 결과물을 더 선호한다는 점에 주목했습니다.⁵

RLHF는 어떻게 작동하나요?

RLHF로 LLM을 교육하는 과정은 일반적으로 다음과 같은 4단계로 진행됩니다.

사전 교육 모델

RLHF는 일반적으로 엔드투엔드 학습 방법이 아닌 사전 학습된 모델을 미세 조정하고 최적화하는 데 사용됩니다. 예를 들어 InstructGPT는 RLHF를 사용하여 기존 GPT, 즉 Generative Pre-trained Transformer 모델을 개선했습니다. OpenAI는 InstructGPT 출시 발표에서 "GPT-3가 이미 가지고 있었지만 프롬프트 엔지니어링만으로는 끌어내기 어려웠던 기능을 '잠금 해제'하는 프로세스라고 이해하면 될 것"이라고 밝혔습니다.⁵

사전 교육은 RLHF에서 가장 리소스 집약적인 단계로 남아 있습니다. OpenAI는 InstructGPT를 위한 RLHF 훈련 프로세스에 GPT-3의 사전 훈련에 필요한 계산과 데이터의 2% 미만이 소요된다는 점에 주목했습니다.

감독된 미세 조정(Supervised Fine-Tuning)

명시적 강화 학습을 시작하기 전에 감독된 미세 조정(SFT)을 사용하여 사용자가 기대하는 형식으로 모델 응답을 생성합니다.

앞서 언급했듯이 LLM 사전 학습 프로세스는 모델 사전 학습 중에 학습된 언어 패턴을 복제하여 사용자의 프롬프트에서 시퀀스의 다음 단어를 예측해서 완료하는 방식으로 모델을 최적화합니다. 때때로 LLM은 사용자가 원하는 방식으로 시퀀스를 완료하지 못할 수 있습니다. 예를 들어 사용자가 "이력서 작성 방법을 알려주세요."라고 요청하면 LLM은 "Microsoft Word 사용"이라고 응답할 수 있습니다. 문장을 완성하는 데는 유효한 방법이지만 사용자의 목표와 일치하지 않습니다.

따라서 SFT는 지도 학습을 사용하여 다양한 종류의 프롬프트에 적절하게 응답하도록 모델을 훈련시킵니다. 인간 전문가가 형식(프롬프트, 응답)에 따라 레이블이 지정된 예시를 만들어 질문 답변, 요약 또는 번역과 같은 다양한 사용 사례에 대한 프롬프트에 응답하는 방법을 보여줍니다.

이 데모 데이터는 강력하지만 생성하는 데 시간과 비용이 많이 듭니다. DeepMind는 맞춤형 새 예제를 만드는 대신 '일반적인 서면 대화 형식('인터뷰 대본' 스타일)'을 기반으로 필터링 휴리스틱을 적용하여 MassiveWeb 데이터 세트 내에서 적절한 프롬프트/응답 예제 쌍을 분리하는 접근 방식을 도입했습니다.⁹

보상 모델 교육

강화 학습에서 인간의 피드백이 보상 함수를 작동시키려면 인간의 선호도를 수치화된 보상 신호로 변환할 수 있는 보상 모델이 필요합니다. 효과적인 보상 모델을 설계하는 것은 RLHF에서 중요한 단계입니다. 왜냐하면 주관적인 인간 가치를 실현 가능하게 정의할 수 있는 간단한 수학적 또는 논리적 공식이 존재하지 않기 때문입니다.

이 단계의 주요 목적은 보상 모델에 인간 평가자의 직접적인 피드백으로 구성된 학습 데이터를 충분하게 제공하여 인간의 선호도가 다양한 종류의 모델 응답에 보상을 할당하는 방식을 모델이 모방하는 것을 학습하도록 돕는 것입니다. 이를 통해 인간이 참여하지 않아도 오프라인에서 교육을 계속할 수 있습니다.

보상 모델은 일련의 텍스트를 받아 스칼라 보상 값을 출력해야 합니다. 이 값은 인간 사용자가 해당 텍스트에 대해 보상(또는 페널티)할 금액을 수치로 예측합니다. 출력은 스칼라 값이며 보상 모델의 출력이 RL 알고리즘의 다른 구성 요소와 통합되는 데 필수적입니다.

반응을 1(최악)에서 10(최고)까지의 척도로 평가하는 것과 같이 단순히 인간 평가자가 각 모델 응답에 대한 의견을 스칼라 형식으로 표현하는 것이 가장 직관적으로 보일 수 있지만, 진공 상태에서 '좋은' 또는 '나쁜' 응답을 구성하 것은 말할 것도 없고 모든 인간 평가자가 주어진 점수의 상대적 가치와 일치하도록 하는 것도 엄청나게 어렵습니다. 이 때문에 스칼라 평가를 바로 적용하는 것은 노이즈가 많고 보정하기가 어려울 수 있습니다.

대신, 평가 시스템은 일반적으로 다양한 모델 출력에 대한 인간의 피드백을 비교하여 구성됩니다. 일반적인 방법은 사용자가 두 개의 유사한 텍스트 시퀀스(예: 동일한 프롬프트에 응답하는 서로 다른 두 언어 모델의 출력)를 일대일 매치업에서 비교하도록 한 다음 Elo 등급 시스템을 사용하여 생성된 텍스트의 각 비트에 대해 상대적 순위를 집계하는 것입니다. 간단한 시스템에서는 사용자가 각 출력에 '좋아요' 또는 '싫어요'를 표시할 수 있으며, 상대적인 선호도에 따라 출력의 순위가 매겨집니다. 보다 복잡한 시스템에서는 레이블러에게 전체 평가를 제공하고 각 응답의 결함에 대한 범주형 질문에 답하도록 요청한 다음 알고리즘적으로 이 피드백을 가중 품질 점수로 집계할 수 있습니다.

순위 시스템의 결과는 궁극적으로 보상 모델 훈련에 알리기 위해 스칼라 보상 신호로 정규화됩니다.

정책 최적화

RLHF의 마지막 장애물은 AI 에이전트의 정책을 업데이트하기 위해 보상 모델을 어떻게, 얼마나 사용해야 하는지 결정하는 것입니다. RL 모델을 업데이트하는 보상 함수에 사용되는 가장 성공적인 알고리즘 중 하나는 근접 정책 최적화(PPO)입니다.

대부분의 머신러닝 및 신경망 모델 아키텍처가 손실 함수를 최소화하고 가능한 최소한의 오류를 산출하기 위해 경사하강법을 사용하는 것과 달리, 강화 학습 알고리즘은 보상을 극대화하기 위해 경사 상승을 사용하는 경우가 많습니다.

그러나 보상 함수를 사용하여 가드레일 없이 LLM을 훈련하면 언어 모델의 가중치가 크게 변화하여 보상 모델을 '흉내 내기' 위한 의미 없는 결과물이 발생할 수 있습니다. PPO는 각 학습 반복에서 업데이트할 수 있는 정책의 양을 제한하여 AI 에이전트의 정책을 보다 안정적으로 업데이트할 수 있는 수단을 제공합니다.

먼저, 초기 모델의 사본이 생성되고 훈련 가능한 가중치가 고정됩니다. PPO 알고리즘은 [1-ε, 1+ε]의 범위를 계산합니다. 여기서 ε는 새로운(업데이트된) 정책이 이전(동결된) 정책에서 벗어날 수 있는 정도를 대략적으로 결정하는 하이퍼파라미터입니다. 그런 다음 확률 비율, 즉 이전 정책이 특정 작업을 수행할 확률과 새 정책이 해당 작업을 수행할 확률의 비율을 계산합니다. 확률 비율이 1+ε보다 크거나 1-ε보다 작은 경우 전체 모델을 불안정하게 만들 수 있는 급격한 변화를 방지하기 위해 정책 업데이트의 규모가 축소될 수 있습니다.

PPO의 도입은 비슷한 이점을 제공하지만 PPO보다 더 복잡하고 계산 비용이 많이 드는 이전 버전인 신뢰 지역 정책 최적화(TRPO)에 대한 매력적인 대안을 제공했습니다. A2C(Advanced Actor-Critic)와 같은 다른 정책 최적화 프레임워크도 실행 가능하지만 PPO는 간단하고 비용 효과적인 방법론으로 선호되는 경우가 많습니다.

RLHF의 한계

RLHF 모델은 로봇 공학 및 비디오 게임에서 자연어 처리에 이르기까지 복잡한 작업을 위한 AI 에이전트 훈련에서 인상적인 결과를 보여줬지만 RLHF를 사용하는 데 한계가 없는 것은 아닙니다.

인간의 선호도 데이터는 비용이 많이 듭니다. 인간의 피드백을 직접 수집해야 하기 때문에 비용이 많이 드는 병목 현상이 발생하여 RLHF 프로세스의 확장성이 제한될 수 있습니다. Anthropic¹⁰뿐만 아니라 Google¹¹도 다른 LLM으로 모델 반응을 평가하도록 하여 인간 피드백의 일부나 모두를 대체하는 AI 피드백(RLAIF)을 사용한 강화 학습 기술을 제안했으며 이는 RLHF와 유사한 결과를 도출했습니다.

인간의 피드백은 매우 주관적입니다. 인간 주석 작성자는 주장된 사실뿐만 아니라 '적절한' 모델 동작이 무엇을 의미하는지에 대해서도 종종 의견이 다르기 때문에 '고품질' 결과물에 대해 확고한 합의를 도출하는 것은 불가능하지는 않더라도 어렵습니다. 따라서 인간의 의견 불일치는 모델 성능이 판단할 수 있는 진정한 '근거 진실'의 식별을 불가능하게 합니다.

인간 평가자는 오류가 있을 수 있고 심지어 의도적으로 적대적이거나 악의적일 수도 있습니다. 진정한 반대의 견해를 반영하든, 의도적으로 학습 과정을 방해하든, 모델에 대한 인간의 지침이 항상 선의로 제공되는 것은 아닙니다. 2016년 논문에서 Wolf 등은 독성 행동은 인간과 봇의 소통에서 기본적으로 예상된다고 주장하며 인간 피드백의 신뢰성을 평가하는 방법이 필요하다고 제안했습니다.¹² 2022년 Meta AI는 '저품질 및 적대적 데이터에 최대한 강력하게 대응하면서도 고품질 데이터에서 최대의 학습 효율을 얻는' 자동화된 방법을 연구하는 적대적 인간 피드백에 관한 논문(ibm.com 외부 링크)을 발표했습니다. 이 논문에서는 다양한 '트롤'의 전형과 이들이 피드백 데이터를 왜곡하는 다양한 방식을 식별합니다.

RLHF는 과적합 및 편향 위험이 있습니다. 인간의 피드백이 과도하게 제한된 인구 통계에서 수집되는 경우, 모델은 다른 그룹에서 사용하거나 인간 평가자가 특정한 편견을 가지고 있는 주제에 대해 프롬프트를 표시할 때 성능에 문제가 발생할 수 있습니다.

각주