A mineração de texto, conhecida também como mineração de dados textuais, é o processo de transformação de texto não estruturado em formato estruturado para identificar padrões significativos e novos insights. A aplicação de técnicas analíticas avançadas, como Naïve Bayes, as máquinas de vetores de suporte (SVM), e outros algoritmos de deep learning, permite às empresas a explorar e descobrir relacionamentos ocultos em seus dados não estruturados.
O texto é um dos tipos de dados mais comuns em bancos de dados. Dependendo do banco de dados, esses dados podem ser organizados como:
Como aproximadamente 80% dos dados do mundo são apresentados em um formato não estruturado (link externo à ibm.com), a mineração de texto é uma prática extremamente valiosa nas organizações. As ferramentas de mineração de texto e as técnicas de processamento de linguagem natural (PLN), como a extração de informações (PDF, 131 KB) (link externo à IBM), permitem transformar documentos não estruturados em um formato estruturado para possibilitar a análise e a geração de insights de alta qualidade. Assim, é possível melhorar o processo de tomada de decisão das organizações, levando a melhores resultados de negócios.
Os termos, mineração de texto e análise de textos, são sinônimos em significado nessa discussão, mas podem abranger outros conceitos. A mineração de texto e a análise de texto identificam padrões e tendências textuais nos dados não estruturados por meio do uso de machine learning, estatísticas e linguística. Ao aplicar a transformação de dados em um formato mais estruturado por meio da mineração de textos e da análise de textos, é possível observar que a análise de textos proporciona mais insights quantitativos. As técnicas de visualização de dados podem ser aproveitadas para comunicar descobertas a públicos mais amplos.
O processo de mineração de textos compreende várias atividades que permitem deduzir informações a partir de dados de textos não estruturados. Antes de aplicar diferentes técnicas de mineração de textos, você deve começar com o pré-processamento de textos, que é a prática de limpar e transformar dados de texto em um formato utilizável. Essa prática é um aspecto importante do processamento de linguagem natural (PLN) e geralmente envolve o uso de técnicas como identificação de linguagem, tokenização, identificação de parte do discurso, divisão em partes e análise sintática para formatar dados adequadamente para análise. Quando o pré-processamento de texto é concluído, é possível aplicar algoritmos de mineração de texto para extrair insights a partir dos dados. Algumas dessas técnicas mais comuns de mineração de textos incluem:
A recuperação de informações (RI) retorna informações ou documentos relevantes com base em uma configuração predefinida de consultas ou frases. Os sistemas de RI usam algoritmos para rastrear comportamentos de usuários e identificar dados relevantes. A recuperação de informações é comumente usada em sistemas de catálogo de bibliotecas e mecanismos de busca populares, como o Google. Algumas subtarefas mais comuns de RI incluem:
O processamento de linguagem natural, que surgiu da linguística computacional, usa métodos de vários disciplinas, como ciência da computação, inteligência artificial, linguística e ciência de dados para permitir que os computadores entendam a linguagem humana em seus formatos escrito e verbal. Ao analisar a estrutura e a gramática das frases, as subtarefas de PLN permitem que os computadores façam uma "leitura". As subtarefas mais comuns incluem:
A extração de informações (EI) destaca os dados relevantes ao pesquisar vários documentos. Ela se concentra também em extrair informações estruturadas de texto livre e armazenar essas entidades, atributos e informações de relacionamento em um banco de dados. As subtarefas mais comuns de extração de informações incluem:
A mineração de dados é o processo de identificação de padrões e extração de insights úteis a partir de big data. Esta prática avalia os dados estruturados e não estruturados para identificar novas informações e é comumente usada para analisar os comportamentos do consumidor para as áreas de marketing e vendas. A mineração de textos é essencialmente um subcampo da mineração de dados, pois se concentra em estruturar dados não estruturados e analisá-los para gerar novos insights. As técnicas mencionadas acima são formulários de mineração de dados, mas enquadram-se no escopo da análise de dados textuais.
O software de análise de textos causou impacto na atuação de muitos setores, permitindo melhorar as experiências do usuário do produto, bem como tomar decisões de negócios mais rápidas e melhores. Alguns dos casos de uso mais comuns incluem:
Atendimento ao cliente: existem várias maneiras de solicitar feedback ao cliente de nossos usuários. A combinação de ferramentas de análise de textos, sistemas de feedback como chatbots, pesquisas de opinião dos clientes, NPS (net promoter scores), avaliações on-line, chamados de suporte e perfis de redes sociais, permite que as empresas melhorem a experiência do cliente com agilidade. A mineração de textos e a análise de sentimentos pode oferecer um mecanismo para as empresas priorizarem os principais pontos de impacto para seus clientes, permitindo responder a problemas urgentes em tempo real e aumentar a satisfação do cliente. Saiba como a Verizon está usando a análise de textos no atendimento ao cliente.
Gestão de riscos: a mineração de textos também tem aplicações na gestão de riscos, para a qual pode proporcionar insights sobre as tendências da indústria e do mercado financeiro, monitorando as mudanças de sentimento e extraindo informações de relatórios de analistas e whitepapers. Isso é particularmente valioso para instituições bancárias, pois esses dados oferecem maior confiança ao fazer investimentos de negócios em diversos setores. Saiba como a CIBC e a EquBot estão usando a análise de textos para mitigação de riscos.
Manutenção: a mineração de textos fornece uma visão detalhada e completa da operação e da funcionalidade de produtos e máquinas. Ao longo do tempo, a mineração de textos automatiza a tomada de decisões revelando padrões que estão correlacionados aos problemas e problemas de manutenção preventiva e reativa. A análise de textos ajuda os profissionais de manutenção a descobrir a causa raiz dos desafios e falhas rapidamente.
Assistência médica: as técnicas de mineração de textos têm se tornado cada vez mais importantes para pesquisadores da área biomédica, principalmente para o agrupamento de informações. A investigação manual de pesquisas médicas pode ser cara e demorada. A mineração de textos oferece um método automatizado de extrair informações valiosas da literatura médica.
Filtragem de spam: o spam frequentemente serve como um ponto de entrada para hackers infectarem sistemas de computador com malware. A mineração de textos pode oferecer um método para filtrar e excluir esses e-mails das caixas de entrada, melhorando a experiência do usuário de modo geral e minimizando o risco de ataques cibernéticos aos usuários finais.
O IBM Watson Discovery é uma premiada tecnologia de procura impulsionada por IA que elimina os silos de dados e recupera informações ocultas em dados corporativos.
O Watson Natural Language Understanding é um produto nativo da cloud que usa deep learning para extrair metadados do texto, como palavras-chave, sentimento e sintaxe.
O PLN é uma IA que se adéqua a linguagem dos seus negócios. Crie soluções que promovam um ROI de 383% ao longo de três anos com o IBM Watson Discovery.
Saiba como o IBM Watson pode ajudá-lo com a análise de textos.
Este artigo apresenta os esforços iniciais para a criação de um novo corpus para a disciplina de história.