topics 자연어 처리란 무엇인가요? 자연 언어 처리(NLP)란 무엇인가요?
IBM의 NLP 솔루션에 대해 알아보기 AI 주제 업데이트 구독
인간의 말을 처리하고 학습하는 로봇 얼굴
NLP란 무엇인가요?

자연어 처리 또는 NLP는 컴퓨터 언어학(인간 언어의 규칙 기반 모델링)을 통계 및 머신 러닝 모델과 결합하여 컴퓨터와 디지털 디바이스가 텍스트와 음성을 인식 및 이해하고 생성할 수 있도록 합니다.

NLP는 인공 지능(AI)의 한 분야로 종종

  • 한 언어에서 다른 언어로 텍스트 번역
  • 입력 명령 또는 음성 명령에 응답
  • 음성 기반 사용자 인식 또는 인증
  • 대량의 텍스트 요약
  • 텍스트 또는 음성의 의도 또는 감정 평가
  • 필요에 따라 텍스트, 그래픽 또는 기타 콘텐츠 생성

등을 실시간으로 수행할 수 있는 애플리케이션 및 디바이스의 핵심입니다. 오늘날 대부분의 사람들은 음성으로 작동하는 GPS 시스템, 디지털 어시스턴트, 음성-텍스트 받아쓰기 소프트웨어, 고객 서비스 챗봇 및 기타 소비자 편의 서비스의 형태로 NLP와 소통하고 있습니다. 그러나 NLP는 비즈니스 운영의 간소화 및 자동화, 직원 생산성 향상, 미션 크리티컬 비즈니스 프로세스 간소화 등을 지원하는 엔터프라이즈 솔루션에서도 그 역할이 커지고 있습니다.

적절한 파운데이션 모델을 선택하는 방법

이 모델 선택 프레임워크를 사용하여 성능 요구 사항과 비용, 위험 및 배포 요구 사항의 균형을 맞추면서 가장 적합한 모델을 선택할 수 있습니다.

관련 내용

AI 거버넌스 백서 등록

NLP 작업

인간의 언어는 모호성으로 가득 차 있어 텍스트 또는 음성 데이터의 의도된 의미를 정확하게 파악하는 소프트웨어를 작성하기가 매우 어렵습니다. 동음이의어, 동형이의어, 풍자, 관용구, 은유, 문법 및 용법 예외, 문장 구조의 변형 등은 인간이 학습하는 데 수년이 걸리는 인간 언어의 불규칙성을 보여주는 일부에 불과합니다. 그러나 애플리케이션이 유용해지려면 프로그래머는 처음부터 정확하게 인식하고 이해할 수 있도록 가르쳐야 합니다.

여러 NLP 작업은 인간의 텍스트와 음성 데이터를 분류하여 컴퓨터가 수집 내용을 쉽게 이해할 수 있도록 합니다. 이러한 작업 중 일부에는 다음이 포함됩니다.

  • 음성 인식은 음성-텍스트 변환이라고도 하며 음성 데이터를 텍스트 데이터로 안정적으로 변환하는 작업입니다. 음성 명령을 따르거나 음성 질문에 답하는 모든 애플리케이션에는 음성 인식이 필요합니다. 음성 인식을 특히 어렵게 만드는 것은 사람들이 말하는 방식입니다. 다양한 강세와 억양으로 빠르고 불분명하게 단어를 섞어 말하며 종종 잘못된 문법을 사용합니다.
  • 품사 태깅은 문법 태깅이라고도 하며 특정 단어나 텍스트의 용도와 문맥에 따라 품사를 결정하는 프로세스입니다. 품사는 'make'를 'I can make a paper plane'의 동사로 'What make of car do you own?'의 명사로 식별합니다.
  • 단어 의미 명확화는 주어진 맥락에서 가장 적합한 단어를 결정하는 의미론적 분석 프로세스를 통해 여러 의미를 가진 단어의 의미를 선택하는 것입니다. 예를 들어 단어 의미 명확화는 'make the grade'(성취하다)와 'make a bet'(하다)에서 동사 'make'의 의미를 구분하는 데 도움이 됩니다.
  • 명명된 엔터티 인식 또는 NEM은 단어나 구를 유용한 엔터티로 식별합니다. NEM은 'Kentucky'를 장소로 'Fred'를 남성의 이름으로 식별합니다.
  • 공동 참조 해결은 두 단어가 동일한 엔터티를 참조하는지 여부와 그 시기를 식별하는 작업입니다. 가장 일반적인 예는 특정 대명사가 지칭하는 사람이나 사물을 결정하는 것이지만(예: ‘그녀’ = ‘메리’) 텍스트에서 은유나 관용구를 식별하는 것도 포함될 수 있습니다(예: '곰'이 동물이 아니라 털이 많은 덩치 큰 사람인 경우).
  • 감정 분석은 텍스트에서 태도, 감정, 빈정거림, 혼란, 의심과 같은 주관적인 특성을 추출하려고 시도합니다.
  • 자연어 생성은 음성 인식 또는 음성-텍스트 변환의 반대 개념으로 설명되기도 합니다. 구조화된 정보를 인간의 언어로 표현하는 작업입니다.

이러한 개념이 어떻게 관련되어 있는지 자세히 알아보려면 블로그 게시물 'NLP, NLU, NLG 비교: 세 가지 자연어 처리 개념의 차이점'을 참조하세요.

현재 이용 가능: watsonx.ai

파운데이션 모델로 구동되는 새로운 생성형 AI 기능과 함께 전통적인 기계 학습을 결합하는 완전히 새로운 엔터프라이즈 스튜디오

NLP 도구 및 접근 방식

Python 및 자연어 툴킷(NLTK)

Python 프로그래밍 언어는 특정 NLP 작업을 처리하기 위한 광범위한 도구와 라이브러리를 제공합니다. 이들 중 다수는 NLP 프로그램 구축을 위한 라이브러리, 프로그램 및 교육 리소스의 오픈 소스 모음인 자연어 툴킷 또는 NLTK에서 찾을 수 있습니다.

NLTK에는 위에 나열된 많은 NLP 작업을 위한 라이브러리와 문장 구문 분석, 단어 분할, 형태소 분석 및 표제어 추출(단어를 어근까지 자르는 방법) 및 토큰화(컴퓨터가 텍스트를 더 잘 이해할 수 있도록 구문, 문장, 단락 및 구절을 토큰으로 분할)와 같은 하위 작업을 위한 라이브러리가 포함되어 있습니다. 또한 텍스트에서 추출한 사실을 기반으로 논리적 결론에 도달하는 기능인 의미론적 추론과 같은 기능을 구현하는 라이브러리도 포함되어 있습니다.

통계적 NLP, 머신 러닝, 딥 러닝

초기의 NLP 애플리케이션은 특정 NLP 작업을 수행할 수는 있지만 끝없이 이어지는 예외나 증가하는 텍스트 및 음성 데이터의 양을 수용하기 위해 쉽게 확장할 수 없는 핸드 코딩된 규칙 기반 시스템이었습니다.

통계적 자연어 처리(NLP)는 텍스트 및 음성 데이터에서 요소를 자동으로 추출, 분류 및 라벨링한 다음 해당 요소의 가능한 각 의미에 통계적 가능성을 할당합니다. 이는 컴퓨터 알고리즘과 머신 러닝 및 딥 러닝 모델을 결합하여 수행됩니다. 오늘날 컨볼루션 신경망(CNN) 및 순환 신경망(RNN)을 기반으로 하는 딥 러닝 모델과 학습 기술은 NLP 시스템이 작동하면서 '학습'할 수 있도록 해주며 방대한 양의 원시 텍스트, 비정형 텍스트, 레이블이 지정되지 않은 텍스트 및 음성 데이터 세트에서 훨씬 더 정확한 의미를 추출합니다. 

이러한 기술과 학습 접근 방식 간의 미묘한 차이에 대한 자세한 내용은 'AI, 머신 러닝, 딥 러닝, 신경망: 차이점은 무엇인가요?'를 참조하세요.

nlp 사용 사례

자연어 처리는 많은 현대 실제 응용 분야에서 기계 지능의 원동력입니다. 다음은 몇 가지 예입니다.

  • 스팸 감지: 스팸 탐지를 NLP 솔루션으로 생각하지 않을 수도 있지만 최고의 스팸 탐지 기술은 NLP의 텍스트 분류 기능을 사용하여 이메일에서 스팸 또는 피싱을 나타내는 언어를 검색합니다. 이러한 지표에는 금융 용어의 남용, 특유의 잘못된 문법, 위협적인 언어, 부적절한 긴급성, 철자가 틀린 회사 이름 등이 포함될 수 있습니다. 비록 실제 이메일 경험을 반영하지 않는다고 반박할 수도 있지만 스팸 탐지는 전문가들이 '대부분 해결'되었다고 간주하는 몇 안 되는 NLP 문제 중 하나입니다.
  • 기계 번역: Google 번역은 널리 사용되는 NLP 기술의 한 예입니다. 진정으로 유용한 기계 번역은 한 언어의 단어를 다른 언어의 단어로 대체하는 것 이상의 의미를 갖습니다.  효과적인 번역은 입력 언어의 의미와 어조를 정확하게 파악하고 이를 출력 언어에서 동일한 의미와 원하는 효과를 가진 텍스트로 번역해야 합니다. 기계 번역 도구는 정확도 측면에서 많은 발전을 거듭하고 있습니다. 기계 번역 도구를 테스트하는 가장 좋은 방법은 텍스트를 한 언어로 번역한 다음 다시 원래 언어로 번역하는 것입니다. 자주 인용되는 전형적인 예로 최근까지만 해도 "The spirit is willing but the flesh is weak"을 영어에서 러시아어로 번역하면 "보드카는 좋지만 고기는 썩었다"로 번역되었습니다. 현재는 "영은 원하되 육신이 약하도다"로 변역됩니다. 완벽하지는 않지만 영어-러시아어 번역에 더 많은 자신감을 불어넣습니다.
  • 가상 에이전트 및 챗봇: Apple의 Siri 및 Amazon의 Alexa와 같은 가상 에이전트는 음성 인식을 사용하여 음성 명령의 패턴을 인식하고 자연어 생성을 통해 적절한 조치나 유용한 댓글로 응답합니다. 챗봇은 입력된 텍스트 항목에 응답하여 동일한 작업을 수행합니다. 이들 중 최고는 인간의 요청에 대한 맥락적 단서를 인식하고 시간이 지남에 따라 더 나은 응답이나 옵션을 제공하는 데 사용하는 방법 또한 학습하게 됩니다. 이러한 애플리케이션에서 개선해야 할 다음 사항은 질문 답변, 즉 예상된 질문이든 아니든 질문에 대해 관련성 있고 유용한 답변을 직접 작성하여 답변하는 기능입니다.
  • 소셜 미디어 감정 분석: NLP는 소셜 미디어 채널에서 숨겨진 데이터 인사이트를 발견하는 데 필수적인 비즈니스 도구가 되었습니다. 감정 분석은 소셜 미디어 게시물, 응답, 리뷰 등에 사용되는 언어를 분석하여 제품, 프로모션 및 이벤트에 대한 태도와 감정을 추출할 수 있습니다. 이 정보는 기업이 제품 디자인, 광고 캠페인 등에 사용할 수 있습니다.
  • 텍스트 요약: 텍스트 요약은 NLP 기술을 사용하여 방대한 양의 디지털 텍스트를 소화하고 인덱스, 연구 데이터베이스 또는 전체 텍스트를 읽을 시간이 없는 바쁜 독자를 위한 요약 및 시놉시스를 만듭니다. 최고의 텍스트 요약 애플리케이션은 의미론적 추론과 자연어 생성(NLG)을 사용하여 요약에 유용한 컨텍스트와 결론을 추가합니다.
관련 솔루션
IBM Watson 자연어 처리 솔루션

강력하고 유연한 라이브러리, 서비스 및 애플리케이션 포트폴리오로 인공 지능의 비즈니스 가치를 가속화합니다.

자연어 처리 알아보기
Watson Natural Language Processing Library for Embed 

IBM 파트너에게 더 큰 유연성을 제공하도록 설계된 컨테이너화된 라이브러리를 사용하여 강력한 자연어 AI를 상용 애플리케이션에 주입합니다.

Watson Natural Language Processing Library for Embed 알아보기
리소스 생성형 AI 기술을 위한 무료 실습 학습

프롬프트 엔지니어링, 대규모 언어 모델, 최고의 오픈 소스 프로젝트 등 AI 및 생성형 AI의 기본 개념을 알아보세요.

Watson을 이용한 자연어 처리

NLP 설명서에서 다양한 NLP 사용 사례에 대해 알아보세요.

IBM 내장형 AI로 애플리케이션 개선

IBM Developer 웹 사이트를 방문하여 블로그, 기사, 뉴스레터 등에 액세스할 수 있습니다. IBM 파트너가 되어 IBM Watson 내장형 AI를 상용 솔루션에 도입하세요. BM Watson NLP Library for Embed into your solutions.

Watson은 비즈니스 언어를 이해합니다.

IBM Data & AI GM인 Rob Thomas가 NLP 전문가 및 고객을 초청하여 NLP 기술이 산업 전반에서 비즈니스를 최적화하는 방법을 보여주는 동영상을 시청하세요.

규정 준수를 넘어 AI 윤리 개선으로

AI에 대한 윤리적 고려가 그 어느 때보다 중요해졌습니다.

비영어권 사용자에게 더 많은 지식 제공

IBM은 누구나 웹에서 정보를 쉽고 빠르게 찾을 수 있도록 다국어 질의응답 시스템의 발전에 박차를 가하기 위해 새로운 오픈 소스 툴킷인 PrimeQA를 출시했습니다.

다음 단계 안내

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기 라이브 데모 예약하기