텍스트 마이닝 정보

오늘날 점점 늘어나는 정보의 양이 구조화되지 않은 준구조화된 형식으로 보존되어 있습니다. 예를 들어, 고객 이메일, 콜 센터 메모, 개방형 설문 반응, 뉴스 피드, 웹 양식 등입니다. 이러한 정보의 풍요는 많은 조직에게 다음과 같은 질문을 던지는 문제점을 야기합니다. "이 정보를 어떻게 수집, 탐색하고 활용할 수 있습니까?"

텍스트 마이닝은 작성자가 개념을 표현하기 위해 사용한 정확한 단어와 용어를 모르더라도 주요 개념과 테마를 캡처하고 숨겨진 관계와 경향을 발견하기 위해 텍스트 자료 콜렉션을 분석하는 프로세스입니다. 텍스트 마이닝은 정보 검색과는 상당히 다르기는 하지만 종종 혼동되기도 합니다. 정확한 검색과 정보 저장은 엄청난 도전인 반면에 이러한 정보에 포함된 품질 컨텐츠, 용어 및 관계의 추출과 관리는 결정적이고 중요한 프로세스입니다.

텍스트 마이닝 및 데이터 마이닝

텍스트의 각 기사마다 언어학적 기반 텍스트 마이닝은 개념 지수뿐만 아니라 이러한 개념에 대한 정보를 리턴합니다. 이 순화된 구조화된 정보는 다른 데이터 소스와 결합되어 다음과 같은 질문을 처리할 수 있습니다.

  • 어떤 개념이 함께 발생합니까?
  • 그 밖에 어디에 링크되어 있습니까?
  • 추출된 정보로부터 어떤 상위 수준 범주를 작성할 수 있습니까?
  • 개념 또는 범주가 예상하는 것은 무엇입니까?
  • 개념 또는 범주가 작동을 어떻게 예상합니까?

텍스트 마이닝을 데이터 마이닝과 결합하면 구조화된 또는 구조화되지 않은 데이터에서만 사용 가능한 것보다 더 많은 통찰력을 제공합니다. 이 프로세스는 일반적으로 다음 단계를 포함합니다.

  1. 마이닝할 텍스트를 식별하십시오.텍스트 마이닝을 준비하십시오. 텍스트가 여러 파일에 존재하면 파일을 한 위치에 저장하십시오. 데이터베이스의 경우 텍스트를 포함하는 필드를 판별하십시오.
  2. 텍스트를 마이닝하고 구조화된 데이터를 추출하십시오. 텍스트 마이닝 알고리즘을 소스 텍스트에 적용하십시오.
  3. 개념 및 범주 모델을 작성하십시오. 주요 개념을 식별하고 범주를 작성하십시오. 구조화되지 않은 데이터로부터 리턴된 개념 수는 일반적으로 매우 큽니다. 스코어링을 위해 최상의 개념과 범주를 식별하십시오.
  4. 구조화된 데이터를 분석하십시오. 군집, 분류 및 예측 모델링과 같은 일반적인 데이터 마이닝 기술을 사용하여 개념 간의 관계를 발견하십시오. 추출된 개념을 다른 구조화된 데이터와 병합하여 개념을 기반으로 추가로 동작을 예측하십시오.

텍스트 분석 및 범주화

질적 분석의 양식으로 된 텍스트 분석은 이 텍스트에 포함된 주요 아이디어와 개념이 적합한 개수의 범주로 그룹화될 수 있도록 텍스트로부터의 유용한 정보의 추출입니다. 텍스트 분석은 분석의 접근 방법은 다소 다르더라도 모든 유형과 텍스트 길이에서 수행될 수 있습니다.

짧은 레코드 또는 문서가 가장 쉽게 범주화됩니다. 이들은 복잡하지 않고 일반적으로 애매한 단어나 반응이 적기 때문입니다. 예를 들어, 짧은 개방형 설문 질문에서 사람들에게 좋아하는 세 가지의 휴가 활동을 꼽으라고 물으면 해변에 가기, 국립공원 방문 또는 아무것도 안하기 등과 같은 짧은 답변을 여러 개 예상할 수 있습니다. 반면 더 긴 개방형 반응은 복잡하고 길 수 있으며 반응자가 교육을 많이 받았고, 동기가 있고, 설문지를 작성할 시간이 충분한 경우에는 특히 그렇습니다. 설문에서 사람들에게 자신의 정치적 신념에 대해 얘기해 달라고 묻거나 정치에 대한 블로그 피드를 가지도록 요청하면 모든 종류의 문제와 위치에 대해 다소 긴 설명을 예측할 수 있습니다.

단시간에 주요 개념을 추출하고 이러한 긴 텍스트 소스로부터 통찰력있는 범주를 작성하는 기능은 IBM® SPSS® Modeler Text Analytics 사용의 주요 장점입니다. 이 장점은 텍스트 분석 프로세스의 각 단계마다 가장 안정적인 결과를 내기 위해 자동화된 언어학적 및 통계적 기술의 결합을 통해 획득됩니다.

언어학적 처리와 NLP

이 구조화되지 않은 모든 텍스트 데이터 관리의 주요 문제점은 컴퓨터가 이해할 수 있도록 텍스트를 쓰기 위한 표준 규칙이 없다는 점입니다. 언어, 따라서 의미는 모든 문서 및 모든 텍스트마다 다릅니다. 이러한 구조화되지 않은 데이터를 정확하게 검색하고 조직하는 유일한 방법은 언어를 분석하고 해당 의미를 발견하는 것입니다. 구조화되지 않은 정보로부터 개념 추출을 위한 여러 개의 자동화된 방법이 있습니다. 이러한 접근 방법은 언어학적 및 비언어학적의 두 가지 종류로 구분할 수 있습니다.

몇몇 조직에서는 통계 및 신경망을 기반으로 자동화된 비언어학적 솔루션을 사용하려고 시도했습니다. 컴퓨터 기술을 사용하면 이러한 솔루션은 사람보다 더 빨리 주요 개념을 스캔하고 범주화할 수 있습니다. 불행하게도 이러한 솔루션의 정확도는 매우 낮습니다. 대부분의 통계 기반 시스템은 단순히 단어가 발생한 횟수를 세고 관련 개념에 대한 통계적 인접성을 계산합니다. 이는 관련되지 않은 결과 또는 잡음을 생성하고, 반드시 있어야 하는 결과가 누락되고 침묵으로 처리됩니다.

정확도의 한계를 보충하기 위해서 몇몇 솔루션은 관련 결과와 비관련 결과를 구분하는 데 도움이 되는 복잡한 비언어 규칙을 사용합니다. 이를 규칙 기반 텍스트 마이닝이라고 부릅니다.

반면, 언어학적 기반 텍스트 마이닝은 자연어 처리(NLP)-인간 언어의 컴퓨터 지원 분석-의 원칙을 텍스트의 단어, 구문 및 명령문 또는 구조에 적용합니다. NLP를 통합하는 시스템은 복합 구문을 포함하여 개념을 지능적으로 추출할 수 있습니다. 게다가, 기본 언어 지식을 사용하면 의미 및 컨텍스트를 사용하여 개념을 제품, 조직 또는 사람 등과 같은 관련 그룹으로 분류할 수 있습니다.

언어학적 기반 텍스트 마이닝은 방대한 단어 양식을 유사한 의미가 있는 것으로 인식하고 문장 구조를 분석하여 텍스트 이해를 위한 프레임워크를 제공하여 사람들이 하는 방법으로 텍스트에서 많은 의미를 찾아냅니다. 이 방법은 통계 기반 시스템의 속도와 비용 효율성을 제공하지만 사람의 개입은 덜 요구하면서 훨씬 더 높은 수준의 정확도를 제공합니다.

추출 프로세스 중에 통계 기반과 언어학적 기반 접근 방식 간의 차이를 설명하려면 reproduction of documents에 대한 쿼리에 대해 반응하는 방법을 고려하십시오. 통계 기반 및 언어학적 기반 솔루션 둘 모두는 reproduction 단어를 copyduplication 등과 같은 동의어를 포함하기 위해 확장해야 합니다. 그렇지 않으면 관련 정보를 빠뜨리게 됩니다. 그러나 통계 기반 솔루션이 의미가 같은 다른 용어에 대해 이 유형의 동의어 검색을 하려고 시도하면 birth 용어 또한 포함하려고 하므로 관련이 없는 결과가 많이 생성됩니다. 다시 말해서 언어의 이해는 텍스트의 모호성을 극복하여 언어학적 기반 텍스트 마이닝을 보다 믿을 만한 방법으로 만들어 줍니다.

추출 프로세스의 작동 방법을 이해하면 언어학적 자원(라이브러리, 유형, 동의어 등)을 세부 조정할 때 중요한 결정을 내리는 데 도움이 됩니다. 추출 프로세스의 단계는 다음을 포함합니다.

  • 소스 데이터를 표준 형식으로 변환
  • 후보 항 식별
  • 동의어의 동등 클래스 및 통합 식별
  • 유형 지정
  • 색인화 및 요청 시에 2차 분석기와 패턴 매치

1단계. 소스 데이터를 표준 형식으로 변환

이 첫 번째 단계에서, 사용자가 가져오는 데이터가 추가 분석에 사용될 수 있는 균일한 형식으로 변환됩니다. 이 변환은 내부적으로 수행되므로 원래 데이터를 변경하지 않습니다.

2단계. 후보 항 식별

언어학적 추출 중에 후보 항의 식별에서 언어학적 자원의 역할을 이해하는 것이 중요합니다. 언어학적 자원은 추출이 실행될 때마다 사용됩니다. 이들은 템플리트, 라이브러리 및 컴파일된 자원의 양식으로 존재합니다. 라이브러리에는 단어 목록, 관계 및 추출을 지정하거나 조정하는 데 사용되는 기타 정보가 포함됩니다. 컴파일된 자원은 보거나 편집할 수 없습니다. 그러나 나머지 자원은 템플리트 편집기에서나 대화식 워크벤치 세션에 있는 경우에는 자원 편집기에서 편집할 수 있습니다.

컴파일된 자원은 IBM SPSS Modeler Text Analytics 내에서 추출 엔진의 핵심적인 내부 구성요소입니다. 이러한 자원에는 품사 코드(명사, 동사, 형용사 등)가 있는 기본 양식 목록을 포함하는 일반 사전이 포함됩니다.

컴파일된 자원 외에, 여러 개의 라이브러리가 제품과 함께 제공되며 컴파일된 자원에서 유형 및 개념 정의를 보완하고 동의어를 제공하는 데 사용될 수 있습니다. 이러한 라이브러리 및 사용자가 작성하는 사용자 정의 라이브러리는 몇몇 사전으로 구성됩니다. 여기에는 유형 사전, 동의어 사전 및 제외 사전이 포함됩니다.

데이터를 가져와서 변환한 후 추출 엔진이 추출을 위한 후보 항 식별을 시작합니다. 후보 항은 텍스트에서 개념을 식별하는 데 사용되는 단어나 단어 그룹입니다. 텍스트를 처리하는 동안 단일 단어(단일어) 및 복합어(다항어)가 품사 패턴 추출기를 사용하여 식별됩니다. 그런 다음, 후보 정서 키워드는 정서 텍스트 링크 분석을 사용하여 식별됩니다.

참고: 앞서 언급한 컴파일된 일반 사전에 있는 용어는 관심이 없거나 언어학적으로 단일어로서는 애매한 모든 단어 목록을 나타냅니다. 이러한 단어는 단일어를 식별할 때 추출에서 제외됩니다. 그러나, 품사를 판별할 때나 더 긴 후보 복합 단어(다항어)를 찾을 때 다시 평가됩니다.

3단계. 동의어의 동등 클래스 및 통합 식별

후보 단일어 및 다항어가 식별된 후 소프트웨어는 정규화 사전을 사용하여 동등 클래스를 식별합니다. 동등 클래스는 한 구문의 기본 양식이거나 동일 구문에 대한 두 개의 변형이 있는 단일 양식입니다. 구문을 동등 클래스에 지정하기 위한 목적은 예를 들어, side effect副作用이 별개의 개념으로 처리되지 않도록 하기 위한 것입니다. 동등 클래스에 사용할 개념(즉, side effect 또는 副作用이 리드 용어로 사용되는지 여부)을 판별하기 위해 추출 엔진은 다음 규칙을 나열된 순서대로 적용합니다.

  • 라이브러리의 사용자 지정 양식.
  • 사전에 컴파일된 자원으로 정의되는 최대 빈도 양식.

4단계. 유형 지정

다음으로 유형은 추출된 개념에 지정됩니다. 유형은 개념의 시맨틱 그룹입니다. 이 단계에서는 컴파일된 자원과 라이브러리 둘 모두가 사용됩니다. 유형은 상위 레벨 개념, 긍정적 및 부정적 단어, 이름, 장소, 조직 등과 같은 것을 포함합니다. 자세한 정보는 유형 사전의 내용을 참조하십시오.

언어학적 시스템은 지식에 민감하며 사전에 더 많은 정보가 포함될수록 결과의 품질이 높아집니다. 동의어 정의 등과 같이 사전 컨텐츠의 수정은 결과로 나오는 정보를 단순화할 수 있습니다. 이는 종종 반복적인 프로세스이며 정확한 개념 검색을 위해 필요합니다. NLP는 IBM SPSS Modeler Text Analytics의 코어 요소입니다.