topics supervised learning 지도 학습이란 무엇인가요?
watsonx.ai로 지도 학습 적용하기 AI 업데이트 구독하기
구름의 픽토그램, 파이 차트, 그래프 픽토그램의 콜라주가 있는 그림
지도 학습이란 무엇인가요?

'지도 머신 러닝'이라고도 하는 지도 학습은 머신 러닝인공 지능의 하위 범주입니다. 레이블이 지정된 데이터 세트를 사용하여 데이터를 분류하거나, 결과를 정확하게 예측하는 알고리즘을 학습시키는 것으로 정의할 수 있습니다.

입력 데이터가 모델에 입력되면 교차 검증 프로세스의 일부로 모델이 적절하게 적합해질 때까지 가중치를 조정합니다. 지도 학습은 받은 편지함과 다른 별도의 폴더에 스팸 메일을 분류하는 것처럼 현실적인 문제를 대규모로 해결하는 데 도움이 됩니다. 매우 정확한 머신 러닝 모델을 구축하는 데 사용할 수 있습니다.

AI 거버넌스가 엔터프라이즈 AI 확장을 위해 비즈니스에 필수적인 이유

AI 채택을 가로막는 장벽, 특히 AI 거버넌스 및 위험 관리 솔루션의 부족에 대해 알아보세요.

관련 내용

IDC 보고서 신청

지도 학습의 작동 방식

지도 학습은 훈련 세트를 사용하여 원하는 아웃풋을 산출하도록 모델을 학습시킵니다. 이 훈련 데이터 세트에는 입력과 올바른 출력이 포함되어 있어 지속해서 모델이 학습할 수 있습니다. 알고리즘은 손실 함수를 통해 정확도를 측정하고 오류가 충분히 최소화될 때까지 조정합니다.

지도 학습은 데이터 마이닝 시 분류와 회귀라는 두 가지 유형의 문제로 구분될 수 있습니다.

  • 분류는 알고리즘을 사용하여 테스트 데이터를 특정 범주에 정확하게 할당합니다. 데이터 세트 내의 특정 엔터티를 인식하고 해당 엔터티에 레이블을 지정하거나 정의하는 방법에 대한 결론을 도출하려고 시도합니다. 일반적인 분류 알고리즘으로는 선형 분류기, 서포트 벡터 머신(SVM), 의사 결정 트리, K-최근접 이웃, 랜덤 포레스트 등이 있습니다. 이에 대해서는 아래에서 자세히 설명합니다.
  • 회귀 분석은 종속변수와 독립변수 간의 관계를 이해하는 데 사용됩니다. 일반적으로 특정 비즈니스의 판매 수익과 같은 예측을 수행하는 데 사용됩니다. 선형 회귀, 로지스틱 회귀 및 다항식 회귀는 널리 사용되는 회귀 알고리즘입니다.
지도 학습 알고리즘

지도 머신 러닝 프로세스에는 다양한 알고리즘과 계산 기법이 사용됩니다. 일반적으로 R 또는 Python과 같은 프로그램을 사용하여 계산되며, 아래에서 가장 일반적으로 사용되는 몇 가지 학습 방법에 대한 간략한 설명을 보실 수 있습니다.

  • 신경망: 주로 딥러닝 알고리즘에 활용되는 신경망은  노드 레이어를 통해 인간 두뇌의 상호 연결성을 모방하여 훈련 데이터를  처리합니다. 각 노드는 입력, 가중치, 바이어스(임곗값) 및 아웃풋으로 구성됩니다. 해당 아웃풋이 지정된 임곗값을 초과하면 노드를 '실행'하거나 활성화하여 데이터를 네트워크의 다음 레이어로 전달합니다. 신경망은 지도 학습을 통해 이 매핑 함수를 학습하고, 경사 하강 과정을 통해 손실 함수에 따라 조정합니다. 비용 함수가 0에 가깝거나 0에 가까워지면 모델의 정확도가 정답을 산출한다고 확신할 수 있습니다.
  • 나이브 베이즈: 나이브 베이즈는 베이즈 정리의 클래스 조건부 독립성 원칙을 채택하는 분류 방식입니다. 즉, 한 특징의 존재가 주어진 결과의 확률에 다른 특징의 존재에 영향을 미치지 않으며, 각 예측 변수는 해당 결과에 동일한 영향을 미칩니다. 나이브 베이즈 분류기에는 다항식 나이브 베이즈, 베르누이 나이브 베이즈, 가우시안 나이브 베이즈의 세 가지 유형이 있습니다. 이 기술은 주로 텍스트 분류, 스팸 식별 및 추천 시스템에 사용됩니다.
  • 선형 회귀: 종속 변수와 하나 이상의 독립 변수 간의 관계를 식별하기 위해 사용되는 선형 회귀는 일반적으로 미래 결과를 예측하는 데 활용됩니다. 독립 변수와 종속 변수가 하나만 있는 경우 이를 단순 선형 회귀라고 하며, 독립 변수의 수가 증가하면 다중 선형 회귀라고 합니다. 각 유형의 선형 회귀에 대해 최소 제곱법을 통해 계산된 가장 잘 맞는 선을 그리려고 합니다. 그러나 다른 회귀 모델과 달리 이 선은 그래프에 그릴 때 직선이 됩니다.
  • 로지스틱 회귀: 선형 회귀는 종속 변수가 연속적인 경우 활용되지만, 로지스틱 회귀는 종속 변수가 범주형인 경우, 즉 '참(True)' 및 '거짓(False)' 또는 '예(Yes)' 및 '아니오(No)'와 같이 이진 아웃풋이 있는 경우 선택됩니다. 두 회귀 모델 모두 데이터 입력 간의 관계를 이해하려고 하지만, 로지스틱 회귀는 주로 스팸 식별과 같은 이진 분류 문제를 해결하는 데 사용됩니다.
  • 서포트 벡터 머신(SVM): 서포트 벡터 머신은 블라디미르 바프닉(Vladimir Vapnik)이 개발한 인기 있는 지도 학습 모델로, 데이터 분류와 회귀에 모두 사용됩니다. 즉, 일반적으로 분류 문제에 활용되며 두 데이터 포인트 클래스 사이의 거리가 최대가 되는 하이퍼평면을 구성합니다. 이 하이퍼평면은 결정 경계로 알려져 있으며, 평면의 양쪽에 있는 데이터 포인트 클래스(예: 오렌지와 사과)를 구분합니다.
  • K-최근접 이웃: KNN 알고리즘이라고도 하는 K-최근접 이웃은 데이터 포인트의 근접성 및 사용 가능한 다른 데이터와의 연관성을 기반으로 데이터 포인트를 분류하는 비모수 알고리즘입니다. 이 알고리즘은 유사한 데이터 포인트가 서로 근처에서 발견될 수 있다고 가정합니다. 그 결과, 일반적으로 유클리드 거리를 사용해 데이터 포인트 간의 거리를 계산한 다음 가장 빈도가 높은 카테고리 또는 평균을 기준으로 카테고리를 할당합니다. 사용이 간편하고 계산 시간이 짧아 데이터 과학자들이 선호하는 알고리즘이지만, 테스트 데이터 세트가 커질수록 처리 시간이 길어져 분류 작업에는 적합하지 않습니다. KNN은 일반적으로 추천 엔진 및 이미지 인식에 사용됩니다.
  • 랜덤 포레스트: 랜덤 포레스트는 분류와 회귀 목적 모두에 사용되는 또 다른 유연한 지도 머신 러닝 알고리즘입니다. '포레스트'는 상관 관계가 없는 의사 결정 트리의 컬렉션을 참조하며, 이러한 트리는 분산을 줄이고 보다 정확한 데이터 예측을 만들기 위해 함께 병합됩니다.

 

비지도 학습, 지도 학습, 준지도 학습 비교

비지도 머신 러닝과 지도 머신 러닝은 함께 논의되는 경우가 많습니다. 지도 학습과 달리 비지도 학습은 레이블이 지정되지 않은 데이터를 사용합니다. 이 데이터로부터 클러스터링 또는 연관 문제를 해결하는 데 도움이 되는 패턴을 발견합니다. 이는 주제별 전문가가 데이터 세트 내의 공통 속성을 잘 모를 때 특히 유용합니다. 일반적인 클러스터링 알고리즘은 계층적, k-평균, 가우스 혼합 모델입니다.

준지도 학습은 주어진 입력 데이터의 일부만 레이블이 지정되었을 때 발생합니다. 비지도 및 준지도 학습은 지도 학습에 적합한 데이터 레이블을 지정하기 위해 도메인 전문 지식에 의존하는 데 시간과 비용이 많이 들 수 있으므로 더 매력적인 대안이 될 수 있으며, 일반적인 클러스터링 알고리즘은 계층적, k-평균 및 가우스 혼합 모델입니다.

이러한 접근 방식의 차이점에 대한 자세한 내용은 '지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning) 비교: 차이점은 무엇인가요?'를 참조하세요.

지도 학습 예시

지도 학습 모델을 사용하여 다음을 비롯한 다양한 비즈니스 애플리케이션을 구축하고 발전시킬 수 있습니다.

  • 이미지 및 객체 인식: 지도 학습 알고리즘은 동영상이나 이미지에서 객체를 찾고, 분리하고, 분류하는 데 사용할 수 있어 다양한 컴퓨팅 비전 기술과 이미지 분석에 적용할 때 유용합니다.
  • 예측 분석: 지도 학습 모델은 다양한 비즈니스 데이터 포인트에 대한 심층적인 인사이트를 제공하는 예측 분석 시스템을 만드는 데 광범위하게 사용됩니다. 이를 통해 기업은 주어진 아웃풋 변수를 기반으로 특정 결과를 예측할 수 있으므로 비즈니스 리더가 의사 결정을 정당화하거나 조직의 이익을 위해 방향을 전환하는 데 도움이 됩니다.
  • 고객 감정 분석: 조직은 지도 머신 러닝 알고리즘을 사용하여 사람의 개입이 거의 없이도 대량의 데이터에서 문맥, 감정, 의도를 비롯한 중요한 정보를 추출하고 분류할 수 있습니다. 이는 고객 상호 작용을 더 잘 이해하고 브랜드 참여 노력을 개선하는 데 매우 유용하게 활용될 수 있습니다.
  • 스팸 감지: 지도 학습 모델의 또 다른 예는 스팸 감지입니다. 조직은 지도 분류 알고리즘을 사용하여 새로운 데이터의 패턴이나 이상 징후를 인식하도록 데이터베이스를 학습시켜 스팸 및 비스팸 메일을 효과적으로 정리할 수 있습니다.
지도 학습의 과제

지도 학습은 심층적인 데이터 인사이트와 향상된 자동화 등의 이점을 비즈니스에 제공할 수 있지만, 지속 가능한 지도 학습 모델을 구축할 때 몇 가지 문제가 있습니다. 이러한 문제의 몇 가지 예를 살펴보겠습니다.

  • 지도 학습 모델을 정확하게 구성하려면 특정 수준의 전문 지식이 필요할 수 있습니다.
  • 지도 학습 모델을 훈련하는 데 시간이 많이 걸릴 수 있습니다.
  • 데이터 세트가 사람의 실수를 포함할 가능성이 높기 때문에 알고리즘이 잘못 학습될 수 있습니다.
  • 비지도 학습 모델과 달리 지도 학습은 자체적으로 데이터를 클러스터링하거나 분류할 수 없습니다.
관련 솔루션
IBM Watson Studio

모든 클라우드에서 신뢰할 수 있는 AI를 구축하고 확장합니다. ModelOps의 AI 라이프사이클을 자동화합니다.

IBM Watson Studio 살펴보기
IBM Cloud Pak for Data

필요한 곳 어디에서나 적절한 데이터를 적시에 적절한 사람에게 연결하세요.

Cloud Pak for Data 살펴보기
IBM 클라우드 솔루션

하이브리드. 오픈. 복원력. 디지털 혁신을 위한 플랫폼 및 파트너.

클라우드 솔루션 살펴보기
리소스 생성형 AI 기술을 위한 무료 실습 학습

프롬프트 엔지니어링, 대규모 언어 모델, 최고의 오픈 소스 프로젝트 등 AI 및 생성형 AI의 기본 개념을 알아보세요.

지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning) 비교: 차이점은 무엇인가요?

이 글에서는 지도 및 비지도 데이터 과학 접근법의 두 가지 기본 사항을 살펴봅니다.

지도 학습 모델

서포트 벡터 머신 및 확률적 분류기와 같은 몇 가지 지도 학습 접근 방식 살펴보기

다음 단계 안내

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기 라이브 데모 예약하기