제로 샷 학습이란 무엇인가요?

게시됨: 24 1월 2024
참여자: 데이브 버그만(Dave Bergmann)

제로 샷 학습이란 무엇인가요?

ZSL(Zero-shot Learning)은 사전에 해당 범주나 개념의 예를 보지 않고도 객체나 개념을 인식하고 분류하도록 AI 모델을 훈련하는 머신 러닝 시나리오입니다.

분류 또는 회귀를 위한 대부분의 최신 딥러닝 모델은 지도 학습을 통해 학습되며, 이를 위해서는 관련 데이터 클래스의 레이블이 지정된 많은 예제가 필요합니다. 모델은 레이블이 지정된 학습 데이터 세트에 대한 예측을 수행하여 "학습"합니다. 데이터 레이블은 각 훈련 예제에 대해 가능한 답의 범위와 정답(또는 실측 자료)을 모두 제공합니다. 여기서 "학습"은 모델의 예측과 실측 자료 간의 차이를 최소화하기 위해 모델 가중치를 조정하는 것을 의미합니다. 이 프로세스에는 여러 라운드의 학습 및 업데이트를 위해 레이블이 지정된 샘플이 충분히 필요합니다. 

지도 학습은 강력하지만 일부 실제 시나리오에서는 실용적이지 않습니다. 대량의 데이터 샘플에 주석을 다는 것은 비용과 시간이 많이 소요되며, 희귀 질병이나 새로 발견된 종과 같은 경우 사례가 부족하거나 존재하지 않을 수도 있습니다. 이미지 인식 작업을 고려해보세요. 한 연구에 따르면 인간은 개별적으로 구별할 수 있는 개체 범주를 약 30,000개까지 인식할 수 있습니다.¹ 각 클래스에 대해 레이블이 지정된 데이터에 대해 명시적으로 교육을 받아야 하는 경우 인공 지능 모델이 인간의 능력에 원격으로 접근하는 것은 시간, 비용 및 계산 리소스 측면에서 불가능합니다.

최소한의 학습 오버헤드로 많은 수의 의미 체계 범주로 빠르게 일반화할 수 있는 기계 학습 모델의 필요성으로 인해 FSL(퓨샷 학습) 및 원샷 학습 도 포함하는 기계 학습의하위 집합인 n샷 학습이 발생했습니다. 퓨샷 학습은 일반적으로 전이 학습 및 메타 학습기반 방법을 사용하여 레이블이 지정된 몇 가지 학습 예제(또는 원샷 학습의 경우 레이블이 지정된 단일 예제)만으로 새 클래스를 빠르게 인식하도록 모델을 학습시킵니다.

모든 n-shot 학습과 마찬가지로 제로샷 학습은 특정 알고리즘이나 신경망 아키텍처가 아니라 학습 문제 자체의 본질을 의미합니다: ZSL에서 모델은 사후 학습에 대한 예측을 하도록 요청받는 보이지 않는 클래스의 레이블이 지정된 예제에 대해 학습되지 않습니다.

이 문제 설정은 해당 클래스가 학습 데이터에 존재했는지 여부(레이블이 지정되지 않았음에도 불구하고)를 고려하지 않습니다. 예를 들어, 일부 대규모 언어 모델(LLM)은 보이지 않는 데이터 클래스에 대한 부수적인 참조나 지식을 포함할 수 있는 방대한 텍스트 코퍼스에 대한 자기 지도 학습을 통해 사전 학습되기 때문에 ZSL 작업에 매우 적합합니다. 레이블이 지정된 예제가 없는 ZSL 방법은 모두 이러한 보조 지식을 사용하여 예측을 수행합니다.

다재다능함과 광범위한 사용 사례를 감안할 때 제로샷 학습은 데이터 과학, 특히 컴퓨터 비전 및 자연어 처리(NLP) 분야에서 점점 더 주목받는 연구 분야가 되었습니다.

일반화된 제로샷 학습(GSZL)

기존 ZSL 설정에서 모델은 보이지 않는 데이터 클래스의 샘플이 포함된 데이터 세트에서 테스트됩니다. 제로샷 방법론을 개발하고 검증하는 데 유용하지만, 가장 일반적인 실제 조건을 반영하지는 않습니다: 일반화된 제로샷 학습(GSZL)은 모델이 분류해야 하는 데이터 포인트가 보이지 않는 클래스 또는 보이는 클래스(모델이 레이블이 지정된 예제에서 이미 "학습"한 클래스)에 속할 수 있는 특정 제로샷 학습 문제를 나타냅니다.

GSZL은 분류자가 아직 노출되지 않은 보이지 않는 클래스보다 학습에서 본 클래스에 대한 예측을 편향시키는 경향이라는 추가적인 문제를 극복해야 합니다. 따라서 GSZL은 이러한 편향을 완화하기 위해 추가 기술이 필요한 경우가 많습니다.

AI 거버넌스가 엔터프라이즈 AI 확장을 위해 비즈니스에 필수적인 이유

AI 채택을 가로막는 장벽, 특히 AI 거버넌스 및 위험 관리 솔루션의 부족에 대해 알아보세요.

관련 내용

파운데이션 모델에 대한 가이드 등록하기

제로샷 학습은 어떻게 작동하나요?

모델이 학습하도록 훈련되는 범주의 레이블이 지정된 예가 없는 경우 제로샷 학습 문제는 텍스트 설명, 속성, 포함된 표현 또는 당면한 작업과 관련된 기타 의미 정보와 같은 보조 정보를 사용합니다.

제로 샷 학습 기법은 클래스 간의 결정 경계를 직접 모델링하는 대신, 일반적으로 주어진 입력이 특정 클래스에 속할 가능성을 나타내는 확률 벡터를 출력합니다. GSZL 메서드는 샘플이 보이는 클래스에 속하는지 아니면 새로운 클래스에 속하는지 먼저 결정한 다음 그에 따라 진행하는 예비 판별자를 추가할 수 있습니다.

레이블 이해

지도 학습과 FSL (Few-Shot Learning) 에서 모델은 각 클래스의 레이블이 지정된 하나 이상의 예를 직접 관찰하여 다양한 클래스를 인식하는 방법을 학습합니다. 이를 안내하는 이러한 명시적인 주석이 없으면 제로샷 학습 에는 레이블의 의미에 대한 보다 근본적인 이해가 필요합니다. 

간단한 비유를 위해 어린이가 새가 어떻게 생겼는지 배우고 싶어한다고 상상해 보세요. 지도 학습(supervised learning, FSL)과 유사한 과정에서, 아이는 동물 그림책에서 "새"라고 표시된 이미지를 보면서 학습합니다. 앞으로 그녀는 이미 본 새 이미지와 닮았기 때문에 새를 알아볼 것입니다. 그러나 ZSL 시나리오에서는 이러한 레이블이 지정된 예제를 사용할 수 없습니다. 대신, 그 아이는 새에 관한 백과사전 항목을 읽고 그것들이 공중을 날 수 있는 깃털, 부리 그리고 날개를 가진 중소형 동물이라는 것을 배울 수 있다. 그러면 그녀는 새의 개념을 배웠기 때문에 이전에 새를 본 적이 없더라도 현실 세계에서 새를 알아볼 수 있습니다.

앞서 언급한 바와 같이 LLM은 데이터 클래스의 이름을 지정하는 데 사용되는 단어의 의미를 근본적으로 이해하는 능력에서 비롯된 ZSL의 자연스러운 잠재력을 입증했습니다.

전이 학습

학습에 필요한 시간과 리소스, 보이지 않는 클래스를 식별하는 데 필요한 보조 정보의 양을 최소화하기 위해 ZSL은 모델을 처음부터 학습하는 대신 종종 전이 학습(학습된모델을 새 작업에 맞게 용도 변경)을 활용합니다. 

전이 학습은 클래스와 샘플을 시맨틱 임베딩으로 표현하는 ZSL 방법에서 두드러지게 사용됩니다. 예를 들어, 제로 샷 텍스트 분류를 수행하는 모델은 이미 방대한 언어 데이터 말뭉치에 대해 사전 학습된 BERT와 같은 트랜스포머 기반 모델을 사용하여 단어를 벡터 임베딩으로 변환할 수 있습니다. 마찬가지로 제로 샷 이미지 분류 모델은 분류에 정보를 제공할 수 있는 중요한 이미지 특징을 식별하는 데 도움이 되는 필터 가중치를 이미 학습했기 때문에 ResNet 또는 U-Net과 같이 사전 학습된 컨볼루션 신경망(CNN)의 용도를 변경할 수 있습니다.

전이 학습은 GSZL에서 특히 중요한데, GSZL에서는 본 클래스에 대한 모델의 지식을 보이지 않는 클래스에 대한 보조 정보로 사용할 수 있습니다.  예를 들어, 객체 감지 모델이 회색곰을 인식하는 방법을 이미 학습했다고 가정해 보겠습니다. 북극곰의 라벨이 붙은 예를 제공하여 북극곰을 인식하도록 훈련시키는 대신, 북극곰이 흰 털을 가진 회색곰처럼 보인다는 것을 이해하도록 훈련할 수 있습니다.

학습한 지식을 새로운 작업과 다른 수업에 적용하는 이 과정을 도메인 적응이라고도 합니다.

속성 기반 메소드

속성 기반 제로샷 학습 방법은 기존의 지도 학습과 유사한 논리를 사용합니다. 각 데이터 클래스의 레이블이 지정된 예제에 대해 분류자를 직접 학습시키는 대신, 분류기는 색상, 모양 또는 기타 주요 특성과 같은 특정 데이터 클래스의 레이블이 지정된 기능에 대해 학습됩니다.

대상 클래스가 학습에서 직접적으로 보이지 않더라도 해당 속성이 학습 데이터에 존재하는 속성 클래스와 유사하면 보이지 않는 클래스의 레이블을 유추할 수 있습니다.

분류자가 모든 관련 기능을 학습한 후에는 다양한 클래스의 의미 체계 설명을 활용할 수 있습니다. 이 접근 방식은 대상 클래스의 레이블이 지정된 예제를 사용할 수 없지만 해당 특성의 레이블이 지정된 예제는 비교적 풍부할 때 특히 유용합니다. 예를 들어, 모델은 호랑이와 얼룩말의 이미지에서 "줄무늬"를 학습할 수 있습니다. 카나리아의 이미지에서 "노란색"을 학습하고 파리의 이미지에서 "날아다니는 곤충"을 학습할 수 있습니다. 이 모델은 이제 훈련 세트에 꿀벌 이미지가 없음에도 불구하고 꿀벌을 학습된 특징의 조합인 "노란색 줄무늬 날아다니는 곤충"으로 이해할 수 있기 때문에 꿀벌의 제로샷 분류를 수행할 수 있습니다.

적절한 상황에서 다재다능하고 유용하지만 속성 기반 ZSL 방법에는 다음과 같은 중요한 단점이 있습니다.

그들은 모든 클래스가 단일 속성 벡터로 설명될 수 있다는 주요 가정에 의존하지만 항상 그런 것은 아닙니다. Mall, Hariharan 및 Bala는 색상과 깃털 패턴이 성별, 연령 및 번식 상태에 따라 달라지는 American Goldfinch와 색상, 표면 및 공식적인 존재 여부(또는 부재)가 매우 다양한 야외 배드민턴 코트의 예를 인용합니다.²
개별 특성의 예제에 주석을 추가하는 것은 지정된 클래스의 예제에 주석을 추가하는 것만큼 비용과 시간이 많이 소요될 수 있습니다.
특성 기반 메서드는 특성을 알 수 없거나 사용 가능한 샘플에 없는 클래스로 일반화할 수 없습니다.

임베딩 기반 방법

많은 ZSL 방법은 클래스와 샘플을 의미론적 임베딩, 즉 서로 다른 데이터 포인트의 기능이나 의미(및 관계 간의 관계)를 반영하는 데 사용할 수 있는 벡터 표현으로 나타냅니다. 그런 다음 지정된 샘플의 의미론적 임베딩과 분류될 수 있는 다른 클래스의 임베딩 간의 유사성을 측정하여 분류됩니다.

데이터 포인트가 임베딩으로 표현되면  K-최근접 이웃 알고리즘과 유사한 원리를 사용하여 분류가 결정됩니다: 코사인 유사도, 유클리드 거리 또는 바서슈타인 거리와 같은 일부 거리 메트릭은 입력 데이터의 임베딩과 각 잠재적 클래스의 임베딩에 대한 근접성을 측정하는 데 사용됩니다. 해당 데이터 샘플의 임베딩이 지정된 클래스의 임베딩에 가까울수록(또는 더 유사할수록) 해당 클래스에 속할 가능성이 높아집니다.

이러한 임베딩은 여러 가지 방법으로 생성할 수 있습니다. 예를 들면 다음과 같습니다.

BERT, word2vec 또는 GloVe(글로벌 벡터)와 같은 사전 학습된 모델 및 알고리즘은 단어(예: 클래스 레이블 이름)에 대한 벡터 임베딩을 쉽게 출력할 수 있습니다.
마찬가지로, ResNet과 같은 사전 훈련된 CNN의 인코더 네트워크(또는 ViT와 같은 트랜스포머 기반 이미지 인코더)는 이미지에 대해 동일한 작업을 수행할 수 있습니다.
오토인코더는 샘플이나 클래스의 잠재 표현(주어진 데이터 입력에서 가장 구별되는 변수를 분리하는 압축된 저차원 인코딩)을 학습할 수 있습니다.
전이 학습 대신, 다양한 신경망 아키텍처를 관련 학습 데이터(예: 레이블이 지정된 예제를 사용할 수 있는 관련 데이터 클래스의 샘플)에 대해 처음부터 학습하여 효과적인 임베딩을 출력할 수 있습니다.

조인트 임베딩 공간
임베딩 기반 메서드는 일반적으로 다양한 데이터 형식(또는 형식)의 보조 정보 및 벡터 공간 임베딩(예: 클래스 레이블을 설명하는 단어 임베딩 및 해당 클래스에 속할 수 있는 사진의 이미지 임베딩)을 처리하기 때문에 서로 다른 데이터 유형의 임베딩 간에 비교를 용이하게 하는 방법이 필요합니다.

비교하려면 다양한 유형과 크기의 벡터 임베딩을 정규화하고 공유된 고차원 의미 공간(조인트 임베딩 공간이라고 함)에 투영해야 하며, 여기에서 사과 대 사과 설정에서 비교할 수 있습니다. 추상적으로 말하면, 이는 분수와는 다른 비교를 위해 최소 공통 분모를 찾는 개념과 유사하게 작동합니다. 다양한 임베딩 소스 간의 강력한 상관 매핑은 모델의 일반화 성능에 필수적입니다.³

일부 제로샷 학습 모델은 대조 학습 을 사용하여 서로 다른 모델 또는 알고리즘의 의미론적 임베딩을 더 잘 정렬합니다: 시맨틱 임베딩 쌍을 사용하여 대조 학습은 모델을 훈련하여 "양수" 쌍 사이의 거리(예: 개 이미지와 "개"라는 단어의 임베딩) 사이의 거리를 최소화하고 "부정"(일치하지 않는) 쌍 사이의 거리를 최대화합니다.

공동 엔드-투-엔드 교육
서로 다른 모델의 임베딩 간에 정렬을 보장하는 효과적인 방법 중 하나는 해당 모델을 나란히 함께 학습시키는 것입니다. 예를 들어, OpenAI의 CLIP(Contrastive Language-Image Pre-training) 모델은 인터넷에서 가져온 400M 이상의 이미지-캡션 쌍으로 구성된 레이블이 지정되지 않은 방대한 데이터 세트에서 훈련되었습니다.⁴

이러한 페어링은 이미지 인코더와 텍스트 인코더를 처음부터 공동으로 학습하는 데 사용되었으며, 대조 손실을 사용하여 이미지 임베딩과 해당 캡션에 대한 임베딩 간의 코사인 유사성을 최대화했습니다. 이를 통해 제로샷 분류를 위한 자연스러운 능력을 얻을 수 있었습니다: 미세 조정 없이 CLIP은 27개의 서로 다른 이미지 분류 데이터 세트에서 강력한 분류 성능을 보여주었습니다.

생성형 기반 방법

생성형 AI는 보조 정보를 사용하여 샘플 데이터를 생성하는 제로샷 학습 문제에 대한 대안을 제공합니다.

생성 기반 방법은 보이지 않는 클래스의 의미론적 표현을 활용하여 샘플을 생성할 수 있으며, 이 샘플은 레이블이 지정되면 학습 문제를 표준 지도 학습으로 변환하는 데 사용할 수 있습니다. 레이블이 지정되지 않은 샘플(또는 밀접하게 관련된 본 클래스의 표현)은 샘플 합성에 도움이 될 수 있지만 제로 샷 설정에서 이 프로세스는 주로 의미론적 설명에 의존하는 경우가 많습니다.

LLM은 고품질 설명을 생성하는 데 필요한 노동력을 줄일 수 있습니다. DALL-E 3 텍스트-이미지 생성 모델에 대한 릴리스 페이퍼에서는 OpenAI는 합성 캡션이 "실측 자료" 캡션에 비해 모델 성능을 향상시켰다고 언급했습니다.⁵

변형 자동 인코더
변형 자동 인코더(VAE)는 잠재 변수의 파라미터화된 분포로 훈련 데이터의 잠재 표현을 학습하는 자가 지도 생성 모델입니다. 즉, 데이터 클래스를 정적 의미 임베딩이 아닌 잠재 공간의 확률 분포로 인코딩하는 방법을 학습합니다. 그런 다음 디코더를 사용하여 해당 잠재 공간에서 무작위 샘플을 생성할 수 있습니다. 조건부 VAE(CVAE)는 선택한 변수의 확률을 최대화하여 합성된 샘플의 속성을 제한할 수 있습니다.

생성적 적대 신경망(GANS)
GAN은 적대적 제로섬 게임에서 공동으로 훈련된 두 개의 신경망, 즉 의미론적 속성과 가우스 노이즈를 사용하여 샘플을 합성하는 생성기와 샘플이 진짜인지 "가짜"(즉, 생성기에 의해 합성됨)인지 결정하는 판별자로 구성됩니다. 판별기의 피드백은 판별기가 더 이상 실제 샘플과 가짜 샘플을 구별할 수 없을 때까지 생성기를 훈련하는 데 사용됩니다. 2014년 원본 GAN 논문 이후 이 프로세스를 개선하고 안정화하기 위해 여러 가지 수정 사항이 개발되었습니다.

VAEGAN
VAE와 GAN 모두 다음과 같은 단점이 있습니다.

VAE는 안정적이지만 잠재 공간에서 샘플을 재구성하는 방식의 특성으로 인해 흐릿한 이미지를 생성하는 경향이 있습니다.
GAN은 고품질 이미지를 생성하는 방법을 배우지만 서로 다른 두 가지 학습 프로세스를 수렴해야 하기 때문에 불안정화되기 쉽습니다.

두 프로세스를 모두 개선하고 안정화하기 위해 여러 가지 수정 사항이 개발되었지만 두 모델 아키텍처를 결합하면 제로샷 설정에서 유망한 결과를 얻을 수 있습니다.⁶개

대규모 언어 모델(LLM)
LLM은 레이블이 지정된 샘플을 합성하는 데에도 사용할 수 있습니다: 예를 들어, Llama 2와 같은 자동 회귀 모델을 사용하여 텍스트 분류 작업을 위해 Sentence-BERT와 같은 양방향 언어 모델을 훈련하는 데 사용할 수 있는 샘플을 생성합니다.

각주

^{모든 링크는 ibm.com 외부에 있습니다.}¹ "Recognition-by-components: A theory of human image understanding," Psychological Review vol. 94 (pp. 115–147), 1987년.
² "Zero-shot Learning Using Multimodal Descriptions," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2022년.
³ "Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation," arXiv, 2021년 4월 18일.
⁴ "CLIP: Connecting text and images," OpenAI, 5 January 2021년.
⁵ "Improving Image Generation with Better Captions," OpenAI, 2023년.
⁶ "Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning," PubMed, 2023년 1월 13일.