topics 텍스트 마이닝이란? 텍스트 마이닝이란?
방대한 텍스트 자료의 모음을 분석하여 핵심 개념, 추세 및 숨겨진 관계를 파악하는 프랙티스를 뜻하는 텍스트 마이닝에 관해 알아봅니다.
녹색과 검은색 배경
텍스트 마이닝이란?

텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다. 텍스트 데이터 마이닝이라고도 불립니다. 기업에서는 Naïve Bayes, SVM(Support Vector Machines), 기타 딥러닝 알고리즘과 같은 고급 분석 기술을 적용함으로써 비정형 데이터에 숨겨진 관계를 탐색하고 발견할 수 있습니다.

텍스트는 데이터베이스에서 가장 일반적인 데이터 유형 중 하나입니다. 이 데이터는 데이터베이스에 따라 다음과 같이 체계화할 수 있습니다.

  • 정형 데이터: 여러 행과 열로 이루어진 표준 테이블 형식이므로, 분석 및 머신러닝 알고리즘에 적합하게 저장하고 처리하기 용이합니다. 이름, 주소, 전화번호 등과 같은 입력 정보가 정형 데이터에 해당할 수 있습니다.

  • 비정형 데이터:  사전 정의된 데이터 형식이 없는 데이터입니다. 소셜 미디어나 제품 리뷰 같은 소스의 텍스트, 비디오나 오디오 파일 같은 리치 미디어 형식이 여기에 해당할 수 있습니다.

  • 반정형 데이터: 이름에서 알 수 있듯이 정형 데이터 형식과 비정형 데이터 형식이 혼합된 데이터입니다. 어느 정도 체계화되어 있지만, 관계형 데이터베이스의 요구사항을 충족하기에는 정형성이 부족합니다. 반정형 데이터의 예로는 XML, JSON, HTML 파일이 있습니다.

전 세계 데이터의 약 80%가 비정형 형식(ibm.com 외부 링크)이므로, 텍스트 마이닝은 기업에 매우 중요한 프랙티스입니다. 텍스트 마이닝 툴과 자연어 처리(NLP) 기술, 예를 들어 정보 추출(PDF, 131KB)(IBM 외부 링크)을 활용하면 비정형 문서를 정형화된 형식으로 변환하여 분석하고 높은 수준의 인사이트를 확보할 수 있습니다. 그 결과, 더 나은 의사결정을 통해 비즈니스 성과를 높일 수 있습니다.

Watson Assistant: AI를 기반으로 하는 더 나은 가상 상담원 구축

자세히 보기

텍스트 마이닝 vs. 텍스트 애널리틱스

텍스트 마이닝(Text Mining)과 텍스트 애널리틱스(Text Analytics)라는 용어가 대화에서 거의 동의어로 쓰이곤 하지만, 더 미묘한 의미를 가질 수도 있습니다.  텍스트 마이닝과 텍스트 분석(Text Analysis)에서는 머신러닝, 통계학, 언어학을 적용하여 비정형 데이터에 담긴 텍스트 패턴 및 추세를 파악합니다. 텍스트 마이닝과 텍스트 분석을 통해 데이터를 더 정형화된 형식으로 변환하여, 텍스트 애널리틱스를 통해 더욱 정량화된 인사이트를 얻을 수 있습니다. 그런 다음 데이터 시각화 기법을 활용하여 더 광범위한 대상과 결과물을 공유할 수 있습니다.

텍스트 마이닝 기법

텍스트 마이닝 프로세스는 비정형 텍스트 데이터에서 정보를 추론하기 위한 몇 가지 활동으로 구성됩니다. 다양한 텍스트 마이닝 기법을 적용하기에 앞서 텍스트 전처리, 즉 텍스트 데이터를 정리하여 사용 가능한 형식으로 변환하는 프랙티스를 수행해야 합니다. 자연어 처리(NLP)의 핵심 요소 중 하나인 이 프랙티스에서는 대개 언어 식별, 토큰화(tokenization), 품사 태깅, 청킹, 구문 분석과 같은 기법을 활용하여 데이터를 분석에 적합한 형식으로 만듭니다. 텍스트 전처리를 완료하면, 텍스트 마이닝 알고리즘을 적용하여 데이터에서 인사이트를 발굴할 수 있습니다. 다음과 같은 텍스트 마이닝 기법이 자주 사용됩니다.

정보 검색

정보 검색(Information Retrieval, IR)은 사전 정의된 쿼리/구문 세트를 기반으로 연관 정보나 문서를 확보하는 기법입니다. IR 시스템에서는 각종 알고리즘을 활용하여 사용자 행동을 추적하고 관련 데이터를 식별합니다. 라이브러리 카탈로그 시스템, 그리고 Google과 같은 인기 검색 엔진에서 IR이 널리 활용됩니다. 특히 다음과 같은 IR 서브태스크(sub-task)가 자주 수행됩니다.

  • 토큰화(Tokenization): 긴 형태의 텍스트를 "토큰"이라는 문장 및 단어로 나누는 프로세스입니다. 그런 다음에 단어 가방 모형(Bag-of-Words, BoW)과 같은 모델을 적용하여 텍스트 클러스터링 및 문서 매칭 태스크를 수행합니다. 

  • 형태소 분석(Stemming): 단어에서 접두사와 접미사를 분리하여 어근과 의미를 도출하는 프로세스입니다. 이 기법으로 인덱싱 파일의 크기를 줄여 정보 검색의 성능을 높일 수 있습니다.

자연어 처리(NLP)

전산언어학에서 진화한 자연어 처리에서는 컴퓨터가 인간의 언어, 즉 말과 글을 모두 이해할 수 있게 하고자 컴퓨터 과학, 인공지능, 언어학, 데이터 사이언스와 같은 다양한 분야의 기법을 활용합니다. NLP 서브태스크에서 문장 구조와 문법을 분석하여 컴퓨터가 "읽을" 수 있게 합니다. 다음과 같은 서브태스크가 자주 수행됩니다.

  • 요약(Summarization): 긴 텍스트의 시놉시스를 제공하여 문서의 주요 요점을 간결하고 일관되게 요약하는 기법입니다.

  • 품사 태깅(Part-of-Speech(PoS) Tagging): 명사, 동사, 형용사 등 품사를 기준으로 문서의 모든 토큰에 태그를 할당하는 기법입니다. 이 단계를 거치면 비정형 텍스트에 대한 의미 분석이 가능해집니다.

  • 텍스트 범주화(Text Categorization): 텍스트 분류라고도 하는 이 태스크에서는 사전 정의된 주제 또는 범주에 따라 텍스트 문서를 분석하고 분류합니다. 이 서브태스크는 동의어와 약어를 분류하는 데 특히 유용합니다.

  • 감성 분석(Sentiment Analysis): 내/외부 데이터 소스에서 긍정적인 또는 부정적인 정서를 감지하여 시간의 흐름에 따른 고객의 태도 변화를 추적합니다. 일반적으로 브랜드, 제품, 서비스에 대한 인식 관련 정보를 제공하는 데 사용됩니다. 이러한 인사이트를 바탕으로 기업과 고객을 연결하고, 프로세스와 사용자 경험을 개선할 수 있습니다.

정보 추출

정보 추출(Information Extraction, IE)은 다양한 문서를 검색하면서 유의미한 데이터 조각을 찾아냅니다. 또한 자유 텍스트에서 정형화된 정보를 추출하고 이러한 엔티티, 속성, 관계 정보를 데이터베이스에 저장합니다. 다음과 같은 IE 서브태스크가 자주 수행됩니다.

  • 특징 선택(Feature Selection) 또는 속성 선택(Attribute Selection): 예측 분석 모델의 결과에 가장 크게 기여할 중요한 특징(차원)을 선택하는 프로세스입니다.

  • 특징 추출(Feature Extraction): 분류 태스크의 정확도를 높이기 위해 일부 특징을 선택하는 프로세스입니다. 이는 특히 차원 축소에 중요합니다.

  • 엔티티 이름 인식(Named-Entity Recognition, NER): 엔티티 식별 또는 엔티티 추출이라고도 하며, 텍스트의 특정 엔티티(예: 이름, 위치)를 찾아 분류하는 것이 목적입니다. 예를 들어, "California"는 위치로, "Mary"를 여성 이름으로 식별합니다.

데이터 마이닝

데이터 마이닝은 빅데이터 세트에서 패턴을 식별하고 유용한 인사이트를 추출하는 프로세스입니다. 정형 데이터와 비정형 데이터를 모두 평가하여 새로운 정보를 식별하는 프랙티스입니다. 일반적으로 마케팅 및 판매 분야에서 사용자 행동을 분석하는 데 활용됩니다. 텍스트 마이닝은 비정형 데이터를 정형화하고 분석하여 새로운 인사이트를 생성하는 데 중점을 두므로, 사실상 데이터 마이닝의 하위 영역이라 할 수 있습니다. 위에서 소개한 여러 기법은 데이터 마이닝의 형태를 갖지만, 텍스트 데이터 분석의 범위에 속합니다.

텍스트 마이닝 적용 분야

텍스트 애널리틱스 소프트웨어는 많은 산업의 운영 방식에 지대한 영향을 미쳤습니다. 즉, 제품 사용자 경험을 향상할 뿐만 아니라 더 빠르고 현명한 비즈니스 의사결정을 가능하게 했습니다. 그 사용 사례의 예를 들자면,

고객 서비스: 다양한 방법으로 사용자에게 고객 피드백을 요청할 수 있습니다. 텍스트 애널리틱스 툴, 피드백 시스템(예: 챗봇), 고객 설문조사, NPS(Net-Promoter Score, 순추천지수), 온라인 리뷰, 지원 티켓, 소셜 미디어 프로파일과 연계함으로써 고객 경험을 빠르게 향상할 수 있습니다. 기업에서 텍스트 마이닝과 감성 분석을 이용하여 고객의 주요 애로 사항에 우선순위를 부여하는 메커니즘을 마련합니다. 이러한 방식으로 시급한 문제에 실시간으로 대응하고 고객 만족도를 높일 수 있습니다. Verizon에서 고객 서비스에 텍스트 애널리틱스를 어떻게 활용하는지 알아보세요.

위험 관리: 텍스트 마이닝은 위험 관리에도 활용됩니다. 업계 동향 및 금융 시장에 관한 인사이트를 제공할 수 있는데, 이를 위해 정서 변화를 모니터링하고, 애널리스트 리포트 및 백서에서 정보를 추출하는 등의 기법을 구사합니다. 금융 기관에 특히 유용한데, 다양한 분야에 대한 비즈니스 투자를 고려할 때 이 데이터를 토대로 더 자신 있게 판단할 수 있기 때문입니다. CIBC와 EquBot이 텍스트 애널리틱스를 위험 완화에 어떻게 활용하는지 알아보세요.

유지보수: 텍스트 마이닝은 제품과 기계의 작동 및 기능에 관하여 상세하고 거시적인 관점을 제시합니다. 텍스트 마이닝은 차츰 문제점, 그리고 사전 예방/사후 대처 유지보수 절차와 관련 있는 패턴을 밝혀냅니다. 그에 따라 의사결정이 자동화됩니다. 유지 보수 전문가는 텍스트 애널리틱스를 통해 당면 과제 및 실패의 근본 원인을 더 빨리 찾아낼 수 있습니다.

헬스케어: 바이오메디컬 분야에서, 특히 정보 클러스터링과 관련하여 텍스트 마이닝 기법이 더욱 진가를 발휘하고 있습니다. 의학 연구 자료를 수작업으로 조사하려면 비용과 시간이 많이 들 수 있습니다. 텍스트 마이닝은 의료 문헌에서 가치 있는 정보를 추출하는 작업을 자동화할 수 있습니다.

스팸 필터링: 스팸은 해커가 컴퓨터 시스템을 악성 코드(malware)에 감염시킬 때 진입 지점이 되곤 합니다. 텍스트 마이닝으로 이러한 이메일을 수신함에서 필터링하고 제외함으로써 사용자 경험을 전반적으로 향상하고 최종 사용자에 대한 사이버 공격의 위험을 최소화할 수 있습니다.

관련 솔루션
IBM Watson Discovery

IBM Watson Discovery는 데이터 사일로를 제거하고 엔터프라이즈 데이터 내부에 숨겨진 정보를 검색하는 수상 경력이 있는 AI 기반 검색 기술입니다.

Watson Discovery 살펴보기
자연어 이해

Watson Natural Language Understanding은 딥러닝을 통해 텍스트에서 키워드, 감정, 구문과 같은 메타데이터를 추출하는 클라우드 네이티브 제품입니다.

Natural Language Understanding 살펴보기
자연어 처리

NLP는 비즈니스의 언어를 구사하는 AI입니다. IBM Watson Discovery를 이용하여 3년간 383%의 ROI를 달성할 솔루션을 개발하세요.

자연어 처리 살펴보기
리소스 각 기업에서는 IBM Watson을 텍스트 애널리틱스의 출발점으로 삼을 수 있습니다.

IBM Watson을 텍스트 애널리틱스에 어떻게 활용할 수 있는지 알아보세요.

역사를 위한 텍스트 마이닝 : 방대한 데이터 세트 구축의 첫 단계

역사 분야에서 새로운 코퍼스(corpus)를 개발하기 위한 선구적 활동을 조명합니다.

다음 단계

IBM Watson Discovery로 추세를 파악하여 데이터에 근거한 더 현명한 비즈니스 의사결정을 수행할 수 있습니다. 텍스트 애널리틱스는 데이터를 실시간 탐색하면서 숨겨진 패턴, 추세, 상이한 콘텐츠 간 관계를 밝혀냅니다. 텍스트 애널리틱스를 사용하여 고객 및 사용자 행동에 관한 인사이트를 얻고, 소셜 미디어 및 이커머스 동향을 분석하며, 문제의 근본 원인을 찾아보세요. 숨겨진 인사이트에는 아직 개발되지 않은 비즈니스 가치가 있습니다.

지금 IBM Watson Discovery 사용해 보기