topics 미세 조정 미세 조정이란 무엇인가요?
watsonx.ai를 통한 모델 미세 조정 AI 업데이트 구독
구름 픽토그램, 파이 차트, 그래프 픽토그램이 콜라주된 일러스트

게시일: 2024년 3월 15일
기고자: Dave Bergmann

미세 조정이란 무엇인가요?

머신 러닝의 미세 조정은 특정 작업이나 사용 사례에 맞게 사전 학습된 모델을 조정하는 프로세스입니다. 이는 특히 생성형 AI에 사용되는 파운데이션 모델의 학습 과정에서 기본적인 딥러닝 기법으로 자리 잡았습니다.

미세 조정은 기존 모델이 이미 학습한 지식을 새로운 작업 학습의 출발점으로 활용하는 광범위한 전이 학습 기법의 하위 집합으로 간주할 수 있습니다.

미세 조정은 기본적으로 특정 목적을 위해 새로운 모델을 처음부터 학습하는 것보다 당면한 작업과 관련된 광범위한 학습을 이미 습득한 사전 학습된 기본 모델의 기능을 연마하는 것이 더 쉽고 저렴하다는 생각을 바탕으로 합니다. 자연어 처리(NLP) 분야에서 두각을 나타내고 있는 대규모 언어 모델(LLM)이나 이미지 분류, 객체 감지 또는 이미지 분할과 같은 컴퓨팅 비전 작업에 사용되는 복잡한 합성곱 신경망(CNN) 및 비전 트랜스포머(ViT)와 같이 수백만 또는 수십억 개의 매개변수가 있는 딥 러닝 모델의 경우 특히 그렇습니다.

전이 학습을 통한 사전 모델 학습을 활용하면 미세 조정을 통해 틈새 사용 사례와 비즈니스 요구 사항에 맞는 대규모 모델을 얻는 데 필요한 고가의 컴퓨팅 성능과 레이블이 지정된 데이터의 양을 줄일 수 있습니다. 예를 들어 미세 조정을 사용하여 사전 학습된 LLM의 대화형 어조나 사전 학습된 이미지 생성 모델의 일러스트레이션 스타일을 간단히 조정할 수 있습니다. 또한 모델의 원래 학습 데이터 세트에서 학습한 내용을 독점 데이터 또는 전문화된 영역별 지식으로 보완하는 데에도 사용할 수 있습니다.

따라서 미세 조정은 머신 러닝 모델의 실제 적용에서 중요한 역할을 하며, 정교한 모델에 대한 액세스와 사용자 지정의 대중화를 돕습니다.

엔터프라이즈용 생성형 AI + ML

이 전자책에서는 조직이 생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하여 상당한 경쟁 우위를 확보할 수 있는 방법을 설명합니다.

관련 내용

파운데이션 모델 가이드 등록하기

미세 조정 vs. 학습

미세 조정은 표면적으로 모델 학습에 사용되는 기술이지만 일반적으로 "학습"이라고 하는 것과는 다른 프로세스입니다. 명확성을 위해 데이터 과학자는 일반적으로 후자를 이러한 맥락에서 사전 학습이라고 부릅니다.

(사전)학습

학습이 시작될 때(또는 이 맥락에서는 사전 학습), 모델은 아직 아무것도 '학습'하지 않은 상태입니다. 학습은 모델 매개변수의 무작위 초기화, 즉 신경망의 각 노드에서 발생하는 수학적 연산에 적용되는 다양한 가중치와 편향으로 시작됩니다.

학습은 두 단계로 반복해서 진행됩니다. 순방향 단계에서는 모델이 학습 데이터 세트의 샘플 입력을 일괄 예측하고 손실 함수는 각 입력에 대한 모델의 예측과 '정답'(또는 실측 정보) 간의 차이(또는 손실)를 측정합니다. 역전파 중에는 최적화 알고리즘(일반적으로 경사 하강)을 사용하여 네트워크 전체에서 모델 가중치를 조정하여 손실을 줄입니다. 모델 가중치에 대한 이러한 조정은 모델이 '학습'하는 방식입니다. 이 과정은 모델이 충분히 학습되었다고 판단될 때까지 여러 학습 기간에 걸쳐 반복됩니다.

일반적으로 이미지 분류, 객체 감지 또는 이미지 분할과 같은 컴퓨팅 비전 작업을 위한 모델을 사전 학습하는 데 사용되는 기존의 지도 학습에서는 라벨이 지정된 데이터를 사용합니다. 라벨(또는 주석)은 가능한 해답의 범위와 각 샘플에 대한 실측 정보의 아웃풋을 제공합니다.

LLM은 일반적으로 자체 지도 학습(SSL)을 통해 사전 학습되며, 이 경우 모델은 라벨이 지정되지 않은 데이터의 고유한 구조에서 실측 정보를 도출하도록 설계된 사전 텍스트 작업을 통해 학습합니다. 이러한 프리텍스트 태스크는 다운스트림 태스크에 유용한 지식을 제공합니다. 일반적으로 다음 두 가지 방법 중 하나를 사용합니다.

  • 자체 예측: 원본 입력의 일부를 마스킹하고 모델에 재구성 작업을 맡깁니다. 이는 LLM의 주된 학습 방식입니다.

  • 대조 학습: 관련 입력에 대해서는 유사한 임베딩을, 관련 없는 입력에 대해서는 다른 임베딩을 학습하는 학습모델입니다. 이는 CLIP(Contrasting Language-Image Pretraining)과 같은 퓨샷 또는 제로샷 학습을 위해 설계된 컴퓨팅 비전 모델에서 두드러지게 사용됩니다.

따라서 SSL을 사용하면 수백만 또는 수십억 개의 데이터 포인트에 주석을 달아야 하는 부담 없이 대규모의 데이터 세트를 학습에 사용할 수 있습니다. 이를 통해 엄청난 양의 노동력을 절약할 수 있지만 그럼에도 불구하고 엄청난 계산 리소스가 필요합니다.

미세 조정

반대로 미세 조정은 사전 학습을 통해 이미 가중치가 업데이트된 모델을 추가로 학습시키는 기술을 수반합니다. 기본 모델의 이전 지식을 시작점으로 사용하여 더 작은 작업별 데이터 세트에서 모델을 학습시켜 모델을 미세 조정합니다.

이론적으로는 작업별 데이터 세트를 초기 학습에 사용할 수 있지만, 작은 데이터 세트에서 대규모 모델을 처음부터 학습하면 모델이 학습 예제에서는 잘 작동하지만 새 데이터에 대해 일반화되지 않을 수 있으므로 과적합의 위험이 있습니다. 이렇게 하면 모델이 주어진 작업에 적합하지 않게 되고 모델 학습의 목적에 어긋나게 됩니다.

따라서 미세 조정은 방대한 데이터 세트에 대한 사전 학습을 통해 얻은 광범위한 지식과 안정성을 활용하고 보다 상세하고 구체적인 개념에 대한 모델의 이해를 연마하는 두 가지 장점을 모두 제공합니다. 오픈 소스 파운데이션 모델의 성능이 향상됨에 따라 사전 학습에 따른 재정적, 계산적 또는 물류적 부담 없이 이점을 누릴 수 있는 경우가 많습니다.

미세 조정은 어떻게 이루어지나요?

미세 조정은 사전 학습된 모델의 가중치를 출발점으로 삼아 모델이 활용될 특정 작업과 사용 사례를 보다 직접적으로 반영하는 소규모의 예제 데이터 세트에 대한 추가 학습을 진행합니다. 일반적으로 지도 학습을 수반하지만 강화 학습, 자체 지도 학습 또는 준지도 학습도 포함될 수 있습니다.

미세 조정에 사용되는 데이터 세트는 사전 학습된 모델이 미세 조정될 때 사용되는 특정 도메인 지식, 스타일, 작업 또는 사용 사례를 제공합니다. 예를 들면 다음과 같습니다. 

  • 일반 언어에 대해 사전 학습된 LLM은 관련 프로그래밍 요청과 각각에 해당하는 코드 스니펫이 포함된 새 데이터 세트를 사용하여 코딩에 맞게 미세 조정할 수 있습니다.

  • 특정 종의 새를 식별하는 데 사용되는 이미지 분류 모델은 라벨이 지정된 추가 학습 샘플을 통해 새로운 종을 학습할 수 있습니다.

  • LLM은 해당 스타일을 나타내는 샘플 텍스트에 대한 자체 지도 학습을 통해 특정 작문 스타일을 모방하는 방법을 배울 수 있습니다.

라벨이 지정된 데이터와 라벨이 지정되지 않은 데이터를 모두 통합하는 머신 러닝의 하위 집합인 준지도 학습은 시나리오에서 지도 학습이 필요하지만 적절한 라벨이 지정된 예제가 부족할 때 유리합니다. 준지도 미세 조정은 컴퓨팅 비전1 및 NLP2 작업 모두에 대해 유망한 결과를 산출했으며 충분한 양의 라벨이 지정된 데이터를 수집해야 하는 부담을 줄이는 데 도움이 됩니다.

미세 조정을 통해 전체 네트워크의 가중치를 업데이트할 수 있지만, 현실적인 이유로 항상 그런 것은 아닙니다. 매개변수 효율적 미세 조정(PEFT)이라는 포괄적인 용어로 종종 언급되는 다양한 대체 미세 조정 방법이 있으며, 이 방법은 모델 매개변수의 선택된 하위 집합만 업데이트합니다. 이 섹션의 뒷부분에서 설명하는 PEFT 방법을 사용하면 계산 요구량을 줄이고 치명적인 망각(미세 조정으로 인해 모델의 핵심 지식이 손실되거나 불안정해지는현상)을 줄일 수 있습니다. 이러한 현상은 대개 성능의 의미 있는 저하 없이 이루어집니다.

미세 조정 기법이 매우 다양하고 각 기술에 내재된 변수가 많기 때문에 이상적인 모델 성능을 달성하려면 사용 사례와 가장 관련성이 높은 메트릭에 따라 만족스러운 결과에 도달할 때까지 배치 크기, 학습률 및 정규화 용어와 같은 데이터 세트와 하이퍼파라미터를 조정하여 학습 전략과 설정을 여러 번 반복해야 하는 경우가 많습니다.

전체 미세 조정

개념적으로 가장 간단한 미세 조정 방법은 전체 신경망을 업데이트하는 것입니다. 이 간단한 방법론은 본질적으로 사전 학습 프로세스와 유사합니다. 즉, 전체 미세 조정 프로세스와 사전 학습 프로세스 간의 유일한 근본적인 차이점은 사용되는 데이터 세트와 모델 매개변수의 초기 상태입니다.

미세 조정 프로세스로 인한 불안정한 변화를 방지하기 위해 특정 하이퍼파라미터(학습 프로세스에 영향을 주지만 그 자체로는 학습 가능한 매개변수가 아닌 모델 속성)는 사전 학습 중에 사양에 따라 조정될 수 있습니다. 예를 들어 학습률이 적을수록(모델 가중치에 대한 각 업데이트의 크기를 줄일수록) 치명적인 망각으로 이어질 가능성이 적습니다.

매개변수 효율적 미세 조정(PEFT)

전체 미세 조정은 유사한 사전 학습 프로세스와 마찬가지로 계산적으로 매우 까다롭습니다. 수억 또는 수십억 개의 매개변수가 있는 최신 딥 러닝 모델의 경우 비용이 많이 들고 비실용적인 경우가 많습니다.

매개변수 효율적 미세 조정(PEFT)에는 사전 학습된 대규모 모델을 특정 다운스트림 애플리케이션에 효과적으로 적용하기 위해 업데이트해야 하는 학습 가능한 매개변수 수를 줄이는 다양한 방법이 포함됩니다. 이를 통해 PEFT는 효과적으로 미세 조정된 모델을 생성하는 데 필요한 계산 리소스와 메모리 스토리지를 크게 줄입니다. PEFT 방법은 특히 NLP 사용 사례의 경우 전체 미세 조정 방법보다 더 안정적인 것으로 입증된 경우가 많습니다.3
 

부분 미세 조정
선택적 미세 조정이라고도 하는 부분 미세 조정 방법은 관련 다운스트림 작업의 모델 성능에 가장 중요한 사전 학습된 매개변수의 선택된 하위 집합만 업데이트하여 계산 요구를 줄이는 것을 목표로 합니다. 나머지 매개변수는 '고정'되어 변경되지 않도록 합니다.

가장 직관적인 부분 미세 조정 접근 방식은 신경망의 외부 계층만 업데이트하는 것입니다. 대부분의 모델 아키텍처에서 모델의 내부 계층(입력 계층에 가장 가까운 계층)은 광범위하고 일반적인 특징만 캡처합니다. 예를 들어 이미지 분류에 사용되는 CNN에서는 초기 계층이 일반적으로 가장자리와 텍스처를 식별하지만, 각 후속 계층은 가장 바깥쪽 계층에서 최종 분류가 예측될 때까지 점진적으로 더 미세한 특징을 식별합니다. 일반적으로, 새 작업(모델을 미세 조정하는 작업)이 원래 작업과 더 유사할수록 내부 계층의 사전 학습된 가중치가 이미 이 새로운 관련 작업에 더 유용하므로 업데이트해야 하는 계층이 더 적습니다.

노드별 가중치가 아닌 모델의 계층 전체 편향 항만 업데이트하는 것을 포함하는 기타 부분 미세 조정 방법4 및 모델 전체에서 전체 가중치의 선택된 하위 집합만 업데이트하는 '희소' 미세 조정 방법이 있습니다.5


추가 미세 조정
사전 학습된 모델의 기존 매개변수를 미세 조정하는 대신, 추가 방법은 모델에 추가 매개변수 또는 계층을 추가하고, 사전 학습된 기존 가중치를 동결하고, 해당 새 구성 요소만 학습시킵니다. 이 접근 방식은 원래의 사전 학습된 가중치가 변경되지 않은 상태로 유지되도록 하여 모델의 안정성을 유지하는 데 도움이 됩니다.

이렇게 하면 학습 시간이 늘어날 수 있지만, 저장할 그래디언트와 최적화 상태가 훨씬 적기 때문에 메모리 요구 사항이 크게 줄어듭니다. Lialin 등에 따르면, 모델의 모든 매개변수를 학습하려면 모델 가중치만 사용하는 것보다 12~20배 더 많은 GPU 메모리가 필요하다고 합니다.6 고정된 모델 가중치의 양자화를 통해 메모리를 추가로 절약할 수 있으며, 이는 개념적으로 오디오 파일의 비트 전송률을 낮추는 것과 유사하게 모델 매개변수를 표현하는 데 사용되는 정밀도를 감소시킵니다.

추가 방법의 한 가지 하위 분야는 프롬프트 조정입니다. 개념적으로 이는 프롬프트 엔지니어링과 유사한데, 이는 특정 어조를 지정하거나 소수의 학습을 용이하게 하는 예제를 제공하는 등 원하는 아웃풋으로 모델을 안내하기 위해 '하드 프롬프트'(즉, 사람이 자연어로 작성한 프롬프트)를 맞춤화하는 것을 말합니다. 프롬프트 조정은 AI가 작성한 소프트 프롬프트, 즉 사용자의 하드 프롬프트에 연결되는 학습 가능한 벡터 임베딩을 도입합니다. 프롬프트 튜닝은 모델을 다시 학습시키는 대신 모델 가중치를 고정하고 대신 소프트 프롬프트 자체를 학습시킵니다. 빠르고 효율적이며 즉각적인 조정을 통해 해석 가능성이 떨어지더라도 모델이 특정 작업 간에 더 쉽게 전환할 수 있습니다.

어댑터
추가적인 미세 조정의 또 다른 하위 집합은 신경망에 추가된 새로운 작업별 계층인 어댑터 모듈을 주입하고 사전 학습된 모델 가중치(고정됨)를 미세 조정하는 대신 이러한 어댑터 모듈을 학습시킵니다. BERT 마스크 언어 모델에 대한 결과를 측정한 원본 논문에 따르면, 어댑터는 3.6%의 매개변수만 학습하면서 전체 미세 조정과 동등한 성능을 달성했습니다.7


재매개변수화
저순위 적응(LoRA)과 같은 재매개변수화 기반 방법은 트랜스포머 모델에서 사전 학습된 모델 가중치의 대규모 행렬과 같이 고차원 행렬의 저순위 변환을 활용합니다. 이러한 저순위 표현은 모델 가중치의 기본 저차원 구조를 캡처하기 위해 중요하지 않은 고차원 정보를 생략하여 학습 가능한 매개변수의 수를 크게 줄입니다. 따라서 미세 조정 속도가 크게 빨라지고 모델 업데이트를 저장하는 데 필요한 메모리가 줄어듭니다.

LoRA는 모델 가중치 행렬의 직접 최적화를 피하고 대신 모델 가중치(또는 델타 가중치)에 대한 업데이트 행렬을 최적화하여 모델에 삽입합니다. 가중치 업데이트 행렬은 결과적으로 두 개의 더 작은 (즉, 더 낮은 순위) 행렬로 표현되어 업데이트해야 하는 매개변수 수가 크게 줄어들어 미세 조정 속도가 크게 빨라지고 모델 업데이트를 저장하는 데 필요한 메모리가 줄어듭니다. 사전 학습된 모델 가중치 자체는 고정된 상태로 유지됩니다.

LoRa의 또 다른 이점은 최적화 및 저장되는 항목이 새로운 모델 가중치가 아니라 원래의 사전 학습된 가중치와 미세 조정된 가중치 간의 차이(또는 델타)이기 때문에 실제 매개변수가 변경되지 않은 사전 학습된 모델을 주어진 사용 사례에 맞게 조정하기 위해 필요에 따라 다양한 작업별 LoRa를 '교체'할 수 있다는 것입니다.

QLoRA와 같은 다양한 LoRA 파생 상품이 개발되었으며, 이는 LoRA 이전의 트랜스포머 모델을 양자화하여 계산 복잡성을 더욱 줄입니다.

대규모 언어 모델 미세 조정

미세 조정은 LLM 개발 주기의 필수적인 부분으로, 기본 파운데이션 모델의 원시 언어 기능을 챗봇부터 코딩, 창의적이고 기술적인 기타 영역에 이르기까지 다양한 사용 사례에 맞게 조정할 수 있습니다.

LLM은 라벨이 지정되지 않은 방대한 데이터 코퍼스에 대한 자체 지도 학습을 사용하여 사전 학습됩니다. OpenAI의 GPT, Google의 Gemini 또는 Meta의 Llama 모델과 같은 자동 회귀 언어 모델은 완료될 때까지 시퀀스의 다음 단어를 단순히 예측하도록 학습됩니다. 사전 학습에서는 학습 데이터에서 추출한 샘플 문장의 시작 부분이 모델에 제공되고 샘플이 끝날 때까지 시퀀스의 다음 단어를 예측하는 작업을 반복적으로 수행합니다. 각 예측에 대해 원래 샘플 문장의 실제 다음 단어가 실측 정보 역할을 합니다.

이 사전 학습은 강력한 텍스트 생성 기능을 제공하지만 사용자의 의도를 실제로 이해하지는 못합니다. 기본적으로 자기 회귀 LLM은 실제로 프롬프트에 응답하지 않습니다. 이들은 단지 텍스트를 추가할 뿐입니다. 프롬프트 엔지니어링의 형태로 된 매우 구체적인 지침이 없으면 사전 학습된 LLM(미세 조정되지 않음)은 프롬프트에 의해 시작된 주어진 시퀀스에서 다음 단어가 될 수 있는 것을 문법적으로 일관된 방식으로 예측합니다. "이력서 작성 방법을 알려주세요"라는 메시지가 표시되면 LLM은 "Microsoft Word 사용"이라고 응답할 수 있습니다. 문장을 완성하는 데는 유효한 방법이지만 사용자의 목표와 일치하지 않습니다. 모델은 사전 학습 코퍼스에 포함된 관련 콘텐츠에서 수집한 이력서 작성에 대한 상당한 지식을 이미 가지고 있을 수 있지만 미세 조정하지 않으면 이 지식에 액세스하지 못할 수 있습니다.

따라서 미세 조정 프로세스는 사용자 또는 사용자의 비즈니스의 고유한 어조와 사용 사례에 맞게 파운데이션 모델을 조정할 뿐만 아니라 실제 사용에 완전히 적합하도록 만드는 데 중요한 역할을 합니다.

명령 조정

명령 조정은 주로 챗봇 사용을 위해 LLM을 미세 조정하는 데 사용되는 감독된 미세 조정(SFT)의 하위 집합으로, LLM이 사용자 요구 사항을 보다 직접적으로 해결하는 응답, 즉 명령을 더 잘 따르도록 하는 응답을 생성하도록 합니다. 프롬프트 예제가 "다음 문장을 영어에서 스페인어로 번역" 또는 "다음 문장을 긍정 또는 부정으로 분류"와 같은 지침 지향 작업으로 구성된 형식(프롬프트, 응답)에 따라 라벨이 지정된 예제는 질문 답변, 요약 또는 번역과 같은 다양한 사용 사례를 나타내는 프롬프트에 응답하는 방법을 보여줍니다. 모델 아웃풋과 라벨이 지정된 샘플 사이의 손실을 최소화하기 위해 모델 가중치를 업데이트할 때, LLM은 더 유용한 방식으로 프롬프트에 텍스트를 추가하고 일반적인 지침을 더 잘 따르는 방법을 학습합니다.

"이력서 작성 방법을 알려주세요"라는 이전 프롬프트 예제를 계속하자면, SFT에 사용되는 데이터 세트에는 "방법을 알려주세요"로 끝나는 프롬프트에 응답하는 바람직한 방법이 단순히 문장을 완성하는 것이 아니라 단계별 제안을 제공하는 것임을 보여주는 여러(프롬프트, 응답) 쌍이 포함될 수 있습니다.

인간 피드백을 통한 강화 학습(RLHF)

명령 조정은 모델을 대상으로 응답을 구조화하는 방법과 같은 실질적이고 직접적인 행동을 가르칠 수는 있지만, 라벨이 지정된 예제를 통해 유용성, 사실적 정확성, 유머 또는 공감과 같은 추상적인 인간의 자질을 가르치는 것은 엄청나게 힘들고 어려울 수 있습니다.

특히 챗봇과 같은 대화형 사용 사례의 경우 모델 아웃풋을 이상적인 인간 행동에 더 잘 맞추기 위해 SFT는 강화 학습, 특히 인간 피드백을 통한 강화 학습(RLHF)으로 보완할 수 있습니다. 인간 선호도에 따른 강화 학습이라고도 하는 RLHF는 개별 예제를 통해 복잡하거나 정의되지 않았거나 지정하기 어려운 특성에 대해 모델을 미세 조정하는 데 도움이 됩니다.

코미디를 생각해 보세요. SFT로 모델을 '웃기도록' 가르치려면 학습 가능한 패턴을 구성할 수 있을 만큼의 농담을 작성(또는 습득)하는 데 드는 비용과 노동력이 필요할 뿐만 아니라, 특정 데이터 과학자가 웃기다고 생각하는 것이 사용자층이 웃기다고 생각하는 것과 일치해야 합니다. RLHF는 기본적으로 수학적으로 크라우드소싱된 대안을 제공합니다. LLM에게 농담을 생성하도록 유도하고 인간 테스터가 그 품질을 평가하도록 하는 것입니다. 이러한 평가는 보상 모델을 학습시켜 긍정적인 피드백을 받을 농담의 종류를 예측하는 데 사용할 수 있으며, 이 보상 모델은 강화 학습을 통해 LLM을 학습시키는 데 사용될 수 있습니다. 

보다 실질적으로, RLHF는 학습 데이터에 내재된 사회적 편견을 반영하거나 무례하거나 적대적인 사용자 입력을 처리하는 등 할루시네이션과 같은 LLM의 실존적 과제를 해결하는 것을 목표로 합니다.

일반적인 미세 조정 사용 사례

미세 조정은 모델의 핵심 지식을 사용자 지정하여 보완하는 것부터 완전히 새로운 작업과 영역으로 모델을 확장하는 것까지 다양한 용도로 사용할 수 있습니다.

  • 스타일 커스터마이징: 복잡한 행동 패턴과 독특한 일러스트레이션 스타일을 구현하는 것부터 정중하게 인사하며 대화를 시작하는 것과 같은 간단한 수정에 이르기까지 브랜드가 원하는 톤을 반영하도록 모델을 미세 조정할 수 있습니다.

  • 전문화: LLM의 일반적인 언어 능력은 특정 작업을 위해 연마될 수 있습니다. 예를 들어 Meta의 Llama 2 모델은 기본 파운데이션 모델, 챗봇 조정 버전(Llama-2-chat ), 코드 조정 버전(코드 Llama)으로 출시되었습니다. 

  • 도메인별 지식 추가: LLM은 방대한 데이터에 대해 사전 학습되지만 전지전능한 것은 아닙니다. 기본 모델의 지식을 보완하기 위해 추가 학습 샘플을 사용하는 것은 일반적으로 사전 학습에서 충분히 표현되지 않았을 수 있는 전문적이고 난해한 어휘의 사용을 수반하는 법률, 금융 또는 의료 환경과 특히 관련이 있습니다.

  • 퓨샷 학습(Few-shot learning): 이미 강력한 일반화된 지식을 가지고 있는 모델은 비교적 적은 수의 실증적 예제를 사용하여 보다 구체적인 분류 텍스트에 맞게 미세 조정할 수 있습니다. 

  • 엣지 케이스 처리하기: 사전 교육에서 다루지 않았을 것 같은 특정 상황을 특정 방식으로 처리하도록 모델을 설정할 수 있습니다. 이러한 상황의 라벨이 지정된 예를 기반으로 모델을 미세 조정하는 것은 이러한 상황을 적절하게 처리하는 효과적인 방법입니다.

  • 독점 데이터 통합: 회사에는 특정 사용 사례와 매우 관련성이 높은 자체 독점 데이터 파이프라인이 있을 수 있습니다. 미세 조정을 통해 이러한 지식을 처음부터 학습시키지 않고도 모델에 통합할 수 있습니다.  

관련 솔루션
IBM watsonx.ai

생성형 AI, 파운데이션 모델, 머신 러닝 모델을 쉽게 훈련, 검증, 조정 및 배포할 수 있으며 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축할 수 있습니다.

watsonx.ai 살펴보기

watsonx.ai의 파운데이션 모델

watsonx AI 스튜디오는 IBM에서 개발한 비용 효율적인 엔터프라이즈급 파운데이션 모델, 타사 공급업체에서 소싱한 오픈 소스 모델 및 모델의 라이브러리를 제공하여 고객과 파트너가 최소한의 위험으로 생성형 AI를 신속하게 확장하고 운영할 수 있도록 지원합니다.

IBM 파운데이션 모델 라이브러리 살펴보기
리소스 미세 조정 빠른 시작: 파운데이션 모델 조정하기

이 튜토리얼 및 동영상 가이드 시리즈를 통해 watsonx.ai에서 파운데이션 모델을 조정하는 방법, 이유, 시기에 대해 알아보세요.

파운데이션 모델로 생성형 AI 솔루션 개발

파운데이션 모델로 사용 사례를 탐색하고 검증하여 기존 프로세스를 자동화, 간소화 및 가속화하거나 새로운 방식으로 가치를 제공합니다.

제로 샷 학습이란 무엇인가요?

제로샷 학습(ZSL)(사전에 예를 보지 않고도 AI 모델이 객체나 개념을 인식하고 분류하도록 학습되는 머신 러닝 시나리오)과 더 나은 제로샷 성능을 위해 모델을 미세 조정하는 방법에 대해 알아보세요.

다음 단계 안내

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기 라이브 데모 예약하기