텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다. 텍스트 데이터 마이닝이라고도 불립니다. 기업에서는 Naïve Bayes, SVM(Support Vector Machines), 기타 딥러닝 알고리즘과 같은 고급 분석 기술을 적용함으로써 비정형 데이터에 숨겨진 관계를 탐색하고 발견할 수 있습니다.
텍스트는 데이터베이스에서 가장 일반적인 데이터 유형 중 하나입니다. 이 데이터는 데이터베이스에 따라 다음과 같이 체계화할 수 있습니다.
전 세계 데이터의 약 80%가 비정형 형식(ibm.com 외부 링크)이므로, 텍스트 마이닝은 기업에 매우 중요한 프랙티스입니다. 텍스트 마이닝 툴과 자연어 처리(NLP) 기술, 예를 들어 정보 추출(PDF, 131KB)(IBM 외부 링크)을 활용하면 비정형 문서를 정형화된 형식으로 변환하여 분석하고 높은 수준의 인사이트를 확보할 수 있습니다. 그 결과, 더 나은 의사결정을 통해 비즈니스 성과를 높일 수 있습니다.
자세히 보기
텍스트 마이닝(Text Mining)과 텍스트 애널리틱스(Text Analytics)라는 용어가 대화에서 거의 동의어로 쓰이곤 하지만, 더 미묘한 의미를 가질 수도 있습니다. 텍스트 마이닝과 텍스트 분석(Text Analysis)에서는 머신러닝, 통계학, 언어학을 적용하여 비정형 데이터에 담긴 텍스트 패턴 및 추세를 파악합니다. 텍스트 마이닝과 텍스트 분석을 통해 데이터를 더 정형화된 형식으로 변환하여, 텍스트 애널리틱스를 통해 더욱 정량화된 인사이트를 얻을 수 있습니다. 그런 다음 데이터 시각화 기법을 활용하여 더 광범위한 대상과 결과물을 공유할 수 있습니다.
텍스트 마이닝 프로세스는 비정형 텍스트 데이터에서 정보를 추론하기 위한 몇 가지 활동으로 구성됩니다. 다양한 텍스트 마이닝 기법을 적용하기에 앞서 텍스트 전처리, 즉 텍스트 데이터를 정리하여 사용 가능한 형식으로 변환하는 프랙티스를 수행해야 합니다. 자연어 처리(NLP)의 핵심 요소 중 하나인 이 프랙티스에서는 대개 언어 식별, 토큰화(tokenization), 품사 태깅, 청킹, 구문 분석과 같은 기법을 활용하여 데이터를 분석에 적합한 형식으로 만듭니다. 텍스트 전처리를 완료하면, 텍스트 마이닝 알고리즘을 적용하여 데이터에서 인사이트를 발굴할 수 있습니다. 다음과 같은 텍스트 마이닝 기법이 자주 사용됩니다.
정보 검색(Information Retrieval, IR)은 사전 정의된 쿼리/구문 세트를 기반으로 연관 정보나 문서를 확보하는 기법입니다. IR 시스템에서는 각종 알고리즘을 활용하여 사용자 행동을 추적하고 관련 데이터를 식별합니다. 라이브러리 카탈로그 시스템, 그리고 Google과 같은 인기 검색 엔진에서 IR이 널리 활용됩니다. 특히 다음과 같은 IR 서브태스크(sub-task)가 자주 수행됩니다.
전산언어학에서 진화한 자연어 처리에서는 컴퓨터가 인간의 언어, 즉 말과 글을 모두 이해할 수 있게 하고자 컴퓨터 과학, 인공지능, 언어학, 데이터 사이언스와 같은 다양한 분야의 기법을 활용합니다. NLP 서브태스크에서 문장 구조와 문법을 분석하여 컴퓨터가 "읽을" 수 있게 합니다. 다음과 같은 서브태스크가 자주 수행됩니다.
정보 추출(Information Extraction, IE)은 다양한 문서를 검색하면서 유의미한 데이터 조각을 찾아냅니다. 또한 자유 텍스트에서 정형화된 정보를 추출하고 이러한 엔티티, 속성, 관계 정보를 데이터베이스에 저장합니다. 다음과 같은 IE 서브태스크가 자주 수행됩니다.
데이터 마이닝은 빅데이터 세트에서 패턴을 식별하고 유용한 인사이트를 추출하는 프로세스입니다. 정형 데이터와 비정형 데이터를 모두 평가하여 새로운 정보를 식별하는 프랙티스입니다. 일반적으로 마케팅 및 판매 분야에서 사용자 행동을 분석하는 데 활용됩니다. 텍스트 마이닝은 비정형 데이터를 정형화하고 분석하여 새로운 인사이트를 생성하는 데 중점을 두므로, 사실상 데이터 마이닝의 하위 영역이라 할 수 있습니다. 위에서 소개한 여러 기법은 데이터 마이닝의 형태를 갖지만, 텍스트 데이터 분석의 범위에 속합니다.
텍스트 애널리틱스 소프트웨어는 많은 산업의 운영 방식에 지대한 영향을 미쳤습니다. 즉, 제품 사용자 경험을 향상할 뿐만 아니라 더 빠르고 현명한 비즈니스 의사결정을 가능하게 했습니다. 그 사용 사례의 예를 들자면,
고객 서비스: 다양한 방법으로 사용자에게 고객 피드백을 요청할 수 있습니다. 텍스트 애널리틱스 툴, 피드백 시스템(예: 챗봇), 고객 설문조사, NPS(Net-Promoter Score, 순추천지수), 온라인 리뷰, 지원 티켓, 소셜 미디어 프로파일과 연계함으로써 고객 경험을 빠르게 향상할 수 있습니다. 기업에서 텍스트 마이닝과 감성 분석을 이용하여 고객의 주요 애로 사항에 우선순위를 부여하는 메커니즘을 마련합니다. 이러한 방식으로 시급한 문제에 실시간으로 대응하고 고객 만족도를 높일 수 있습니다. Verizon에서 고객 서비스에 텍스트 애널리틱스를 어떻게 활용하는지 알아보세요.
위험 관리: 텍스트 마이닝은 위험 관리에도 활용됩니다. 업계 동향 및 금융 시장에 관한 인사이트를 제공할 수 있는데, 이를 위해 정서 변화를 모니터링하고, 애널리스트 리포트 및 백서에서 정보를 추출하는 등의 기법을 구사합니다. 금융 기관에 특히 유용한데, 다양한 분야에 대한 비즈니스 투자를 고려할 때 이 데이터를 토대로 더 자신 있게 판단할 수 있기 때문입니다. CIBC와 EquBot이 텍스트 애널리틱스를 위험 완화에 어떻게 활용하는지 알아보세요.
유지보수: 텍스트 마이닝은 제품과 기계의 작동 및 기능에 관하여 상세하고 거시적인 관점을 제시합니다. 텍스트 마이닝은 차츰 문제점, 그리고 사전 예방/사후 대처 유지보수 절차와 관련 있는 패턴을 밝혀냅니다. 그에 따라 의사결정이 자동화됩니다. 유지 보수 전문가는 텍스트 애널리틱스를 통해 당면 과제 및 실패의 근본 원인을 더 빨리 찾아낼 수 있습니다.
헬스케어: 바이오메디컬 분야에서, 특히 정보 클러스터링과 관련하여 텍스트 마이닝 기법이 더욱 진가를 발휘하고 있습니다. 의학 연구 자료를 수작업으로 조사하려면 비용과 시간이 많이 들 수 있습니다. 텍스트 마이닝은 의료 문헌에서 가치 있는 정보를 추출하는 작업을 자동화할 수 있습니다.
스팸 필터링: 스팸은 해커가 컴퓨터 시스템을 악성 코드(malware)에 감염시킬 때 진입 지점이 되곤 합니다. 텍스트 마이닝으로 이러한 이메일을 수신함에서 필터링하고 제외함으로써 사용자 경험을 전반적으로 향상하고 최종 사용자에 대한 사이버 공격의 위험을 최소화할 수 있습니다.
IBM Watson Discovery는 데이터 사일로를 제거하고 엔터프라이즈 데이터 내부에 숨겨진 정보를 검색하는 수상 경력이 있는 AI 기반 검색 기술입니다.
Watson Natural Language Understanding은 딥러닝을 통해 텍스트에서 키워드, 감정, 구문과 같은 메타데이터를 추출하는 클라우드 네이티브 제품입니다.
NLP는 비즈니스의 언어를 구사하는 AI입니다. IBM Watson Discovery를 이용하여 3년간 383%의 ROI를 달성할 솔루션을 개발하세요.