Llama 2란 무엇인가요?

게시일: 2023년 12월 19일
기고자: Dave Bergmann

Llama 2란 무엇인가요?

Llama 2는 2023년에 Meta AI에서 출시한 사전 학습 및 미세 조정된 대규모 언어 모델(LLM) 제품군입니다. 연구 및 상업적 용도로 사용할 수 있도록 무료로 제공되는 Llama 2 AI 모델은 텍스트 생성부터 프로그래밍 코드까지 다양한 자연어 처리(NLP) 작업을 수행할 수 있습니다.

기본 파운데이션 모델과 미세 조정된 '채팅' 모델로 제공되는 Llama 2 모델 제품군은 2022년 비상업 라이선스로 출시된 오리지널 LLaMa 1 모델의 후속 모델로 연구 기관에 한해 사례별로 액세스 권한을 부여합니다. 이전 모델과 달리 Llama 2 모델은 AI 연구 및 상업용 모두 무료로 제공됩니다.

Meta의 Llama 모델은 생성형 AI 에코시스템의 민주화에 중요한 역할을 하는 것을 목표로 합니다. Llama 2 연구 논문(ibm.com 외부 링크)에서 밝힌 바와 같이 자기 지도 학습을 통해 자동 회귀 LLM을 사전 학습하는 방법론은 이제 상대적으로 간단하고 잘 알려져 있습니다. 그러나 이 과정에 수반되는 엄청난 계산 요구 사항으로 인해 최첨단 LLM 개발은 소수의 핵심 플레이어로만 제한되어 있습니다. OpenAI의 GPT, Anthropic의 Claude 및 Google의 BARD와 같은 최첨단 LLM은 대부분 독점적인(또한 대규모) 비공개 소스 모델입니다. 따라서 이러한 모델의 작동 방식과 이유뿐만 아니라 이러한 개발과 인간의 이익을 효율적으로 조정할 방법을 이해하는 데 도움이 되는 공개 AI 연구 액세스는 현저히 제한되어 있습니다.

코드와 모델 가중치를 자유롭게 사용할 수 있도록 하는 것 외에도 Llama 프로젝트는 매개변수 수를 늘리는 대신 더 작은 모델의 성능 기능을 향상시키는 데 중점을 두었습니다. 대부분의 유명한 비공개 소스 모델은 수천억 개의 파라미터를 가지고 있는 반면 Llama 2 모델은 70억 개(7B), 130억 개(13B) 또는 700억 개(70B)의 파라미터를 제공합니다.

이를 통해 스타트업 및 연구 커뮤니티 구성원과 같은 소규모 조직은 엄청난 고가의 컴퓨팅 시간이나 인프라 투자 없이 Llama 2 모델 또는 AI 커뮤니티에서 개발한 Llama 기반 모델의 로컬 인스턴스를 배포할 수 있습니다.

자세히 알아보기: IBM은 Watsonx AI 및 데이터 플랫폼 내에서 Llama 2를 사용할 수 있도록 합니다.

Llama 2 및 LLaMa 1 비교

Llama 2 연구 논문에서는 기존 LLaMa 모델과 비교하여 최신 세대의 AI 모델이 제공하는 몇 가지 장점을 자세히 설명합니다.

더 길어진 컨텍스트 길이: Llama 2 모델은 컨텍스트 길이가 4,096 토큰으로 LLaMa 1의 두 배에 달합니다. 컨텍스트 길이(또는 컨텍스트 창)는 추론(즉, 텍스트 생성 또는 진행 중인 대화) 중에 모델이 '기억'할 수 있는 최대 토큰 수를 나타냅니다. 이는 더 큰 복잡성과 더 일관되고 유창한 자연어 교환을 가능하게 합니다.
접근성 향상: LLaMa 1은 연구용으로만 출시되었지만 Llama 2는 모든 조직(활성 사용자 수 7억 명 미만)에서 사용할 수 있습니다.
더욱 강력한 학습: Llama 2는 40% 더 많은 데이터로 사전 학습을 했으며 지식 기반과 문맥 이해도를 높였습니다. 또한 LLaMa 1과 달리 Llama 2 채팅 모델은 인간 피드백을 통한 강화 학습(RLHF)을 사용한 미세 조정을 통해 모델 응답을 인간 기대에 잘 부응할 수 있습니다.

AI를 위한 데이터 저장소

AI 확장을 위한 개선 및 비용 최적화 기회 등의 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 것의 이점을 살펴보세요.

관련 내용

IDC 보고서 신청

Llama 2는 오픈 소스인가요?

Meta가 Llama 2 모델의 시작 코드와 모델 가중치를 연구 및 상업적 용도로 무료로 제공했지만 라이선스 계약의 특정 제한 사항으로 인해 이를 '오픈 소스'라고 부를 수 있는지에 대한 논쟁이 벌어지고 있습니다.

이 논쟁은 다소 기술적이고 의미론적입니다. '오픈 소스'는 소스 코드가 무료로 배포되는 소프트웨어(또는 기타 프로그래밍 툴)를 가리키는 데 구어적으로 흔히 사용되지만 실제로는 오픈 소스 이니셔티브 (OSI) 에서 관리하는 공식 명칭입니다. OSI는 특정 소프트웨어 라이선스가 공식 오픈 소스 정의(OSD)에 나열된 10가지 요구 사항을 충족한다고 판단하는 경우에만 해당 라이선스를 '오픈 소스 이니셔티브 승인'으로 인증합니다. (ibm.com 외부 링크)

OSI 전무이사인 Stefano Maffulli는 성명을 통해 "OSI는 Meta가 강력한 AI 시스템에 대한 접근 장벽을 낮추고 있는 것을 기쁘게 생각합니다. 안타깝게도 이 거대 기술 기업이 LLaMa 2가 '오픈 소스'라는 오해를 불러일으키고 있지만 이는 사실이 아닙니다."라고 설명합니다. ¹

이러한 불일치는 Llama 2 라이선스 계약의 두 가지 측면에서 비롯됩니다.

월간 활성 사용자가 7억 명 이상인 조직은 Meta에 라이선스를 요청해야 합니다. (Meta의 단독 재량에 따라 부여됨).²
'허용되는 사용 정책'은 폭력, 범죄 행위, 인간 사칭 등의 모델 사용과 법적, 도덕적 제한을 금지합니다.

이러한 제한 사항은 OSD의 두 가지 사항과 모순됩니다.

포인트 5: "라이선스는 어떤 개인이나 집단을 차별해서는 안됩니다." ³
포인트 6: “라이센스는 특정 분야의 프로그램 사용을 제한해서는 안 됩니다." ³

Llama 2의 개방적 정신과 '오픈 소스'의 기술적 정의를 충족하지 못한 점을 인정하기 위해 일부 기술 커뮤니티에서는 '개방형 접근 방식'이라는 용어를 사용했습니다. ⁴

Llama 2는 어떻게 작동하나요?

Llama 2 기본 모델은 특정 사용 사례에 맞게 미세 조정하기 위해 사전 학습된 파운데이션 모델이지만 Llama 2 채팅 모델은 이미 대화에 최적화되어 있습니다.

Llama 2 기본 모델

Llama 2는 트랜스포머 기반 자기회귀 인과관계 언어 모델 제품군입니다. 자기회귀 언어 모델은 일련의 단어를 입력으로 사용하여 재귀적으로 다음 단어를 예측(출력)합니다.

자기 지도 사전 학습 중에 LLM은 레이블이 지정되지 않은 방대한 데이터 말뭉치에서 추출한 샘플 문장의 시작 부분을 제공받고 다음 단어를 예측하는 작업을 수행합니다. 기준값(실제 다음 단어)과 자체 예측 간의 차이를 최소화하기 위해 모델을 학습시킬 때 모델은 학습 데이터의 언어 및 논리 패턴을 복제하는 방법을 학습합니다. 연구 논문은 특정 데이터 소스에 대한 세부 사항이 눈에 띄게 누락되어 있으나 Llama 2가 공개적으로 사용할 수 있는 소스로 2조 개의 토큰(트랜스포머 기반 신경망이 언어 처리에 사용하는 숫자로 표현된 단어, 단어 부분, 구문 및 기타 의미 조각)을 학습했다고 명시하고 있습니다.

기본적으로 기본 파운데이션 모델은 프롬프트에 실제로 응답하도록 사전 학습되지 않았습니다. 즉, 문법적으로 일관된 방식으로 프롬프트에 텍스트를 추가합니다. 즉시 사용 가능한 파운데이션 모델은 “쿠키 굽는 법을 가르쳐 주세요"라는 프롬프트에 "휴일 파티를 위해"로 응답할 수 있습니다. 대화, 지시 따르기 또는 창의적 글쓰기와 같은 특정 애플리케이션을 위해 파운데이션 모델을 훈련하려면 지도 학습 및 강화 학습과 같은 기술을 통한 추가 미세 조정이 필요합니다.

대신 기본 Llama 2 모델은 목적에 맞는 모델을 구축하기 위한 기반 역할 을 하도록 고안되었습니다. 현재까지 Llama 2(및 오리지널 LLaMa) 모델은 다음을 포함하여 여러 주요 오픈 소스 LLM의 기반으로 사용되었습니다.

Alpaca: 스탠포드 대학 연구원들이 지시를 따르도록 미세 조정한 LLaMa 7B 버전입니다. 특히 컴퓨팅 리소스 비용이 600달러에 불과함에도 불구하고 GPT-3.5와 경쟁할 수 있는 결과를 달성했습니다.⁵
Vicuna: ShareGPT(ibm.com 외부 링크)의 사용자 대화로 Llama 2 13B를 미세 조정하여 학습된 LMSYS Org의 채팅 지원 모델입니다. 단 300달러의 학습 비용으로 90% 이상의 사례에서 Alpaca보다 우수한 성과를 거두었습니다.⁶
Orca: Microsoft에서 '교사-학생' 체계를 사용하여 학습한 Lama 2의 미세 조정 버전입니다. 이 체계에서는 더 크고 강력한 LLM을 사용하여 소규모 모델이 따라야 할 유용한 추론 행동의 예를 생성합니다.⁷
WizardLM: LLM을 사용하여 대량의 합성 명령 데이터를 생성하는 방법인 Evol-Instruct를 사용하여 미세 조정한 WizardLM은 평가된 29개 기술 중 17개 기술에서 ChatGPT 성능의 90% 이상을 달성했습니다.⁸

Llama 2 채팅 모델

LLAMA-2 채팅 모델은 ChatGPT에서 사용되는 특정 GPT 모델 버전과 유사하게 대화 기반 사용 사례에 맞게 미세 조정되었습니다.

지도 미세 조정 (SFT)을 사용하여 사전 학습된 Llama 2 기본 모델을 프라이밍하여 챗봇 또는 가상 상담사 설정에서 사용자가 예상하는 형식으로 응답을 생성했습니다. 지도 학습 작업에서 (프롬프트, 응답)으로 주석이 달린 레이블이 지정된 대화 형식 교환 쌍은 주어진 프롬프트에 대한 자체 응답과 레이블이 지정된 데이터에서 제공하는 예제 응답 간의 차이를 최소화하도록 모델을 학습 시키는 데 사용됩니다. 예를 들어 모델은 "쿠키 굽는 법을 가르쳐 주세요"라는 프롬프트에 대한 적절한 응답은 단순히 문장을 완성하는 것이 아니라 쿠키 굽기에 대한 실제 지침을 제공하는 것임을 학습합니다.

이 논문은 수백만 개의 라벨링된 예시를 사용하는 대신 '적지만 품질이 높은 예시'를 사용함으로써 결과가 개선되었다고 설명하며 Meta AI가 27,540개의 주석이 달린 샘플을 수집했다고 언급합니다.

SFT에 이어 Meta는 인간 피드백을 통한 강화 학습(RLHF)을 사용하여 채팅 모델의 행동을 인간의 선호도 및 지침에 더욱 일치시켰습니다. RLHF에서는 직접적인 인간 피드백을 사용하여 인간이 선호하는 응답 유형의 패턴을 배우는 '보상 모델'을 학습합니다. 보상 모델의 예측(주어진 응답이 인간이 선호할지 여부)을 스칼라 보상 신호로 변환함으로써 보상 모델은 강화 학습을 통해 Llama-2-chat을 추가로 훈련하는 데 사용됩니다.

인간의 피드백을 수집할 수 있는 방법과 형식은 다양합니다. Meta AI는 간단한 이진 비교 방법을 사용했습니다. 인간 어노테이터가 프롬프트를 작성한 다음 Llama 2의 두 가지 다른 변형에서 생성된 두 가지 모델 응답(Meta 제공 기준에 따름) 중 하나를 선택하도록 요청했습니다. 보상 모델이 이러한 선택에 적절한 가중치를 부여할 수 있도록 어노테이터는 자신이 선택한 응답을 다른 응답보다 선호하는 정도('훨씬 선호', '약간 선호' 또는 '무시해도 될 정도로 선호/확실하지 않음')를 평가하도록 요청 받았습니다.

인간의 선호도는 두 가지 별도의 보상 모델을 학습하는 데 사용되었습니다. 하나는 유용성에 최적화되었고 다른 하나는 안전에 최적화되었습니다. (예: 폭력이나 범죄 행위 조장에 사용될 수 있는 유해하고 혐오스러운 반응을 피합니다.) RLHF에서 LLM 모델 가중치를 업데이트하는 데 일반적으로 사용되는 알고리즘인 근위 정책 최적화(PPO) 외에도 Meta는 거부 샘플링 (ibm.com 외부 링크)을 사용하여 Llama-2-chat-70B를 업데이트했습니다.

Code Llama

Llama 2를 기반으로 구축된 Code Llama는 코드 기반 및 자연어 기반 프롬프트 모두에서 코드(및 코드에 관한 자연어)를 생성하도록 미세 조정되었습니다. Llama 2 기본 및 채팅 모델 출시 직후에 출시된 이 제품은 연구 및 상업적 용도로 무료 사용할 수 있습니다.

Python, C++, Java, PHP 및 Javascript 등 가장 널리 사용되는 프로그래밍 언어를 지원하며 7B, 13B 및 34B 매개변수의 모델 크기로 제공되며 최대 토큰 100,000개의 컨텍스트 길이를 자랑합니다. Code Llama - Python 및 Code Llama - Instruct는 각각 PyTorch(및 PyTorch)와 그에 따른 명령어에 맞게 미세 조정된 두 가지 추가 변형입니다.

Llama 2와 비공개 소스 모델 비교

비공개 소스 경쟁사에 비해 Llama 2 모델은 안전성 및 사실적 정확성과 같은 영역에서 탁월합니다. Llama 2는 훨씬 더 큰 모델과 같은 수준의 성능을 발휘할 수는 없겠지만 개방형 가용성과 뛰어난 효율성은 독보적인 이점을 제공합니다.

Llama 2를 OpenAI, Anthropic 및 Google과 같은 경쟁사의 주력 독점 모델과 비교할 때는 규모를 고려하는 것이 중요합니다. 비공개 소스 모델이 아키텍처의 전체 세부 사항을 항상 공개하는 것은 아니지만 알려진 정보에 따르면 가장 큰 Llama 2 모델의 매개 변수 700억 개를 크게 초과하는 것으로 보입니다.

GPT-3에는 1,750억 개의 매개변수가 있습니다.
GPT-4에는 1조 개의 매개변수가 있는 것으로 추정됩니다.⁹
Google의 PaLM 2에는 3,400억 개의 매개변수가 있는 것으로 알려졌습니다.¹⁰ 이전 모델인 PaLM에는 5,400억 개의 매개변수가 있습니다.¹¹
Anthropic은 Claude 모델에 대한 매개변수 수를 공개하지 않았지만 최근 논문에 따르면 1,750억 개의 매개변수를 가진 Claude 2 버전이 존재한다고 합니다.¹²

인간 평가
Llama 2 연구 논문에 따르면 인간 평가자들은 ChatGPT의 표준 모델인 GPT-3.5.-turbo-0301의 응답보다 Llama-2-chat 70B 응답을 더 선호했습니다. Llama 2 응답의 승률은 36%였으며 동점 비율은 31.5%였습니다. 두 번째로 큰 PaLM 모델인 PaLM Bison에 비해 70B는 50%가 넘는 승률을 보였습니다.

안전
Meta의 테스트에서 7B, 13B 및 70B Llama 2 모델은 모두 Palm Bison보다 안전 위반 비율이 현저히 낮았으며(3% 및 4%, PaLM의 27% 대비) ChatGPT의 7% 보다 안전 위반 비율도 낮았습니다. 이는 챗봇의 유해하고 혐오스럽거나 선동적인 언어가 중대한 결과를 초래할 수 있는 기업 사용 사례에 있어 큰 강점입니다.

프라이버시 및 효율성
대규모 폐쇄형 소스 모델에 비해 소규모 개방형 모델의 본질적인 장점은 기업이 인프라나 클라우드 컴퓨팅에 대규모 투자하지 않고도 자유롭게 로컬 모델 인스턴스를 실행할 수 있으며 비용 효율성을 누릴 수 있다는 점입니다. 로컬 모델을 실행하면 독점 코드, 학습 수정 사항 및 독점 데이터를 상용 서버에 로드하거나 잠재적으로 향후 폐쇄형 소스 모델 교육에 사용하지 않고도 모델 성능을 미세 조정하는 데 사용할 수 있습니다. 또한 7B 및 13B 버전과 같은 더 작은 모델 크기는 처리 능력이 제한적인 모바일 앱과 같은 환경에서 더 원활한 성능을 제공합니다.

Llama 2 사용 방법

Llama 2에는 자체 전용 API가 없지만 여러 공급자를 통해 액세스할 수 있습니다.

Llama-2-13B-chat 및 Llama-2-70B-chat은 IBM과 Hugging Face의 파트너십을 통해 watsonx에서 사용할 수 있는 많은 파운데이션 모델 중 하나입니다.
Llama 2의 모델 가중치와 시작 코드는 Github에서 직접 다운로드할 수 있습니다. Meta에서는 Llama 2를 위한 지침, 데모 및 '레시피'도 제공합니다. (ibm.com 외부 링크) 이 모델은 PyTorch나 LangChain과 같은 오픈 소스 머신러닝 프레임워크에서 구현할 수 있습니다.
Llama 2는 Hugging Face와 같은 오픈 소스 제공업체와 Microsoft Azure, Amazon Sagemaker, Bedrock과 같은 엔터프라이즈 제공업체 및 여러 클라우드 기반 스타트업을 통해서도 이용할 수 있습니다.

각주