트랜스포머 모델이란 무엇인가요?

트랜스포머 모델은 2017년에 도입된 딥 러닝 모델의 일종입니다. 이러한 모델은 자연어 처리(NLP)에서 중요한 위치를 차지했으며, 다양한 머신 러닝 및 인공 지능작업에 적용되었습니다.

이 모델은 2017년 Google Brain의 Ashish Vaswani 팀과 토론토 대학의 팀이 작성한 'Attention is All You Need'라는 논문에서 처음 설명되었습니다. 현재 트랜스포머가 LLM 훈련과 같은 애플리케이션에서 얼마나 널리 사용되고 있는지를 고려할 때, 이 논문의 발표는 해당 분야의 분수령이 될 만한 순간으로 꼽힙니다.

이러한 모델은 텍스트와 음성을 거의 실시간으로 번역할 수 있습니다. 예를 들어, 이제 관광객이 길거리에서 자신의 모국어로 현지인들과 소통할 수 있게 도와주는 앱이 있습니다. 또 이 모델은 연구자들이 DNA를 더 잘 이해하고 약물 설계 속도를 높일 수 있도록 도와줍니다. 금융 및 보안 분야에서 이상 징후를 감지하고 사기를 방지할 수도 있습니다. 비전 트랜스포머는 컴퓨팅 비전 작업에도 유사하게 사용됩니다.

OpenAI에서 선보인 인기 있는 ChatGPT 텍스트 생성 툴은 예측, 요약, 질문 답변 등에 트랜스포머 아키텍처를 사용하는데, 이 해당 모델이 입력된 텍스트에서 가장 관련성이 높은 부분에 집중할 수 있도록 해주기 때문입니다. 툴의 다양한 버전에 표시되는 'GPT'(예: GPT-2, GPT-3)은 '생성형 사전 학습 트랜스포머'를 의미합니다. ChatGPT와 같은 텍스트 기반의 생성형 AI 툴은 대규모의 복잡한 데이터 세트를 기반으로 텍스트 시퀀스에서 다음 단어를 더 쉽게 예측하는 트랜스포머 모델의 이점을 활용할 수 있습니다.

BERT 모델 또는 트랜스포머의 양방향 인코더 표현은 트랜스포머 아키텍처를 기반으로 합니다. 2019년 현재 BERT는 거의 모든 영어 Google 검색 결과에 사용되고 있으며, 70개 이상의 다른 언어 결과에도 적용되었습니다.¹

AI를 위한 데이터 저장소

AI 확장을 위한 개선 및 비용 최적화 기회 등의 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 것의 이점을 살펴보세요.<br>

관련 내용

생성형 AI에 관한 eBook 등록

트랜스포머 모델의 차이점

트랜스포머 모델의 핵심 혁신은 심각한 단점이 있는 신경망 접근 방식인 순환신경망(RNN) 또는 합성곱신경망(CNN)에 의존하지 않아도 된다는 점입니다. GPU를 더 추가한다고 해서 속도가 빨라지는 것은 아니므로 입력 시퀀스를 병렬로 처리하는 트랜스포머는 트레이닝과 추론에 매우 효율적입니다. 트랜스포머 모델은 LSTM(장단기 메모리)과 같은 이전의 순환 신경망 아키텍처보다 학습 시간이 짧습니다.

RNN과 LSTM은 각각 1920년대와 1990년대로 거슬러 올라갑니다. 이러한 기술은 입력의 각 구성 요소를 순서대로(예: 한 단어씩) 계산하므로 계산에 시간이 오래 걸릴 수 있습니다. 또한 두 가지 접근 방식 모두 입력된 정보 사이의 '거리'가 길면 컨텍스트를 유지하는 데 한계가 있습니다.

큰 혁신 2가지

트랜스포머 모델이 제공하는 주요 혁신으로 2가지를 꼽을 수 있습니다. 이 2가지 혁신을 텍스트 예측이라는 맥락에서 생각해 보겠습니다.

위치 인코딩: 각 단어가 문장에 등장하는 순서대로 보는 대신, 각 단어에 고유 번호를 할당합니다. 이는 시퀀스에서 각 토큰(NLP의 단어 또는 하위 단어 조각과 같은 입력의 일부)의 위치에 대한 정보를 제공하여 모델이 시퀀스의 순차 정보를 고려할 수 있도록 합니다.
셀프 어텐션: 어텐션은 문장의 모든 단어가 문장의 다른 모든 단어와의 관계에 따라 가중치를 계산하는 메커니즘으로, 모델이 순서대로 사용될 가능성이 높은 단어를 예측할 수 있도록 합니다. 이러한 이해는 모델이 많은 데이터를 학습하면서 시간이 지남에 따라 학습됩니다. 셀프 어텐션 메커니즘은 각 단어가 시퀀스의 다른 모든 단어에 동시에 주의를 기울여 현재 토큰에 대한 중요도를 평가할 수 있도록 합니다. 머신 러닝 모델은 이러한 방식으로 언어에서 단어가 일반적으로 사용되는 방식에 대한 통계적 확률을 기반으로 문법의 규칙을 '학습'한다고 할 수 있습니다.

트랜스포머 모델은 어떻게 작동하나요?

트랜스포머 모델은 셀프 어텐션 메커니즘과 피드포워드 신경망을 포함하는 일련의 계층을 통해 토큰 시퀀스나 기타 구조화된 데이터 등의 입력 데이터를 처리하는 방식으로 작동합니다. 트랜스포머 모델의 작동 방식은 몇 가지 주요 단계로 나눌 수 있습니다.

영어 문장을 프랑스어로 변환해야 한다고 가정해 보겠습니다. 트랜스포머 모델로 이 작업을 수행하기 위해서는 다음과 같은 단계를 거쳐야 합니다.

입력 임베딩: 입력된 문장은 먼저 임베딩이라는 숫자 표현으로 변환됩니다. 이는 입력 시퀀스에서 토큰의 의미론적 의미를 캡처합니다. 단어 시퀀스의 경우 이러한 임베딩은 학습 중에 학습하거나 사전 학습된 단어 임베딩에서 얻을 수 있습니다.
위치 인코딩: 위치 인코딩은 일반적으로 토큰 임베딩에 추가되는 추가 값 또는 벡터 집합으로 도입되며, 트랜스포머 모델에 공급하기 전에 토큰 임베딩에 추가됩니다. 이러한 위치 인코딩에는 위치 정보를 인코딩하는 특정 패턴이 있습니다.
다중 헤드 어텐션: 셀프 어텐션이 여러 개의 '어텐션 헤드'에서 작동하여 토큰 간의 다양한 유형의 관계를 포착합니다. 셀프-어텐션 메커니즘은 활성화 함수의 일종인 소프트맥스 함수를 사용해 어텐션 가중치를 계산합니다.
계층 정규화 및 잔여 연결: 이 모델은 계층 정규화 및 잔여 연결을 사용하여 학습을 안정화하고 속도를 높입니다.
피드포워드 신경망: 셀프 어텐션 계층의 아웃풋은 피드포워드 계층을 통과합니다. 이러한 네트워크는 토큰 표현에 비선형 변환을 적용하여 모델이 데이터의 복잡한 패턴과 관계를 포착할 수 있도록 합니다.
적층 레이어: 트랜스포머는 일반적으로 여러 개의 레이어를 서로 겹친 형태로 구성됩니다. 각 계층은 이전 계층의 아웃풋을 처리하여 표현을 점진적으로 개선합니다. 여러 계층을 쌓으면 모델이 데이터의 계층적 및 추상적인 특징을 캡처할 수 있습니다.
아웃풋 계층: 신경망 기계 번역과 같은 시퀀스 간 작업에서는 인코더 위에 별도의 디코더 모듈을 추가하여 아웃풋 시퀀스를 생성할 수 있습니다.
훈련: 트랜스포머 모델은 지도 학습을 통해 학습되며, 주어진 작업에 대한 모델의 예측과 실측값 간의 차이를 정량화하는 손실 함수를 최소화하는 방법을 학습합니다. 훈련에는 일반적으로 Adam 또는 확률적 경사 하강(SGD)과 같은 최적화 기술이 사용됩니다.
추론: 훈련 후에는 모델을 새로운 데이터에 대한 추론에 사용할 수 있습니다. 추론하는 동안 입력 시퀀스는 사전 학습된 모델을 통과하고, 모델은 주어진 작업에 대한 예측 또는 표현을 생성합니다.

각주

¹ Google의 BERT, 전 세계적으로 출시, 검색 엔진 저널(IBM.com 외부 링크) 2019년 12월 9일