Cos'è il text mining?

Il text mining, conosciuto anche come data text mining, è il processo di trasformazione di testo non strutturato in un formato strutturato per identificare modelli significativi e nuovi insight. Applicando avanzate tecniche analitiche, come Naïve Bayes, SVM (Support Vector Machine) e altri algoritmi di deep learning, le aziende sono in grado di esplorare e rilevare relazioni nascoste all'interno dei propri dati non strutturati.

Il testo è uno tipi di dati più comuni all'interno dei database. In base al database, questi dati possono essere organizzati come:

Dati strutturati: questi dati sono standardizzati in un formato tabulare con numerose righe e colonne, rendendo più semplice l'archiviazione e l'elaborazione per l'analisi e gli algoritmi di machine learning. I dati strutturati possono includere input come nomi, indirizzi e numeri di telefono.
Dati non strutturati: questi dati non hanno un formato dati predefinito. Possono includere testo proveniente da origini, come social media o recensioni di prodotti, oppure formati multimediali elaborati, come file video o audio.
Dati semi-strutturati: come suggerisce il nome, questi dati sono una combinazione di formati strutturati e dati non strutturati. Sebbene siano in qualche modo organizzati, tali dati non hanno la struttura sufficiente per soddisfare i requisiti di un database relazionale. Alcuni esempi di dati semi-strutturati sono file XML, JSON e HTML.

Poiché circa l'80% dei dati nel mondo ha un formato non strutturato (link esterno a ibm.com), il text mining è una pratica estremamente preziosa all'interno delle organizzazioni. Gli strumenti di text mining e le tecniche NLP (Natural Language Processing), come l'estrazione di informazioni (PDF, 131 KB) (link esterno a IBM), ci consentono di trasformare documenti non strutturati in un formato strutturato per abilitare l'analisi e le generazione di insight di alta qualità. Questo, a sua volta, migliora il processo decisionale delle organizzazioni, portando a migliori risultati aziendali.

Confronto tra text mining e analytics del testo

I termini text mining e analytics del testo sono in gran parte sinonimi nelle conversazioni, ma possono avere un significato più sfumato. Il text mining e l'analytics del testo identificano tendenze e modelli di testo all'interno dei dati non strutturati tramite l'utilizzo di machine learning, statistiche e linguistica. Trasformando i dati in un formato più strutturato attraverso il text mining e l'analisi del testo, è possibile individuare insight più quantitativi tramite l'analytics del testo. È quindi possibile utilizzare tecniche di visualizzazione dei dati per comunicare i risultati ad un numero maggiore di destinatari.

Tecniche di text mining

Il processo di text mining comprende diverse attività che consentono di ricavare informazioni da dati di testo non strutturati. Prima di poter applicare diverse tecniche di text mining, è necessario eseguire la pre-elaborazione del testo, ossia la pratica di pulizia e trasformazione dei dati di testo in un formato utilizzabile. Questa pratica è un aspetto fondamentale dell'elaborazione NLP (Natural Language Processing) e generalmente implica l'utilizzo di tecniche come l'identificazione della lingua, la tokenizzazione, l'etichettatura di parti del discorso, la suddivisione in blocchi e l'analisi della sintassi per formattare i dati in modo appropriato per l'analisi. Una volta completata la pre-elaborazione del testo, è possibile applicare gli algoritmi di text mining per derivare gli insight dai dati. Alcune di queste tecniche di text mining comuni comprendono:

Recupero delle informazioni

Il recupero delle informazioni (IR, information retrieval) restituisce informazioni pertinenti o documenti in base ad un insieme predefinito di query o frasi. I sistemi IR utilizzano degli algoritmi per tracciare i comportamenti degli utenti e identificare i dati pertinenti. Il recupero delle informazioni è comunemente utilizzato nei sistemi di catalogo delle librerie e nei motori di ricerca ampiamente diffusi, come Google. Alcune attività secondarie dell'attività di recupero delle informazioni comprendono:

Tokenizzazione: è il processo di scomposizione di testo in formato esteso in frasi e parole chiamate "token". Questi vengono quindi utilizzati nei modelli, come quello BoW (bag-of-words), per le attività di raggruppamento del testo e associazione dei documenti.
Derivazione: si tratta del processo di separazione dei prefissi e dei suffissi dalle parole per derivare il formato e il significato della parola base. Questa tecnica migliora il recupero delle informazioni riducendo le dimensioni dei file di indicizzazione.

NLP (Natural Language Processing)

L'elaborazione NLP, che si è evoluta dalla linguistica computazionale, utilizza metodi di varie discipline, come informatica, AI, linguistica e data science, per consentire ai computer di comprendere il linguaggio umano nelle forme scritte e verbali. Analizzando la grammatica e la struttura delle frasi, le attività secondarie dell'elaborazione NLP consentono ai computer di "leggere". Le attività secondarie comuni comprendono:

Riepilogo: questa tecnica fornisce una sintesi di parti di testo estese per creare un riepilogo breve e coerente dei punti principali di un documento.
Etichettatura di parti del discorso: questa tecnica assegna un tag a ogni token in un documento in base alla relativa parte del discorso, indicando nomi, verbi, aggettivi e così via. Questa fase abilita l'analisi semantica sul testo non strutturato.
Categorizzazione del testo: questa attività, definita anche classificazione del testo, è responsabile dell'analisi dei documenti di testo e della relativa classificazione in base ad argomenti o categorie predefiniti. Questa attività secondaria è particolarmente utile durante la categorizzazione di sinonimi e abbreviazioni.
Analisi del sentiment: questa attività rileva sentiment positivi o negativi da origini dati interne o esterne, consentendo il tracciamento di variazioni negli atteggiamenti del cliente nel tempo. Viene comunemente utilizzata per fornire informazioni sulle percezioni di marchi, prodotti e servizi. Questi insight possono spingere le aziende a connettersi con i clienti e migliorare i processi e le esperienze utente.

Estrazione delle informazioni

L'estrazione delle informazioni (IE. information extraction) evidenzia le parti importanti dei dati durante la ricerca in vari documenti. Si concentra anche sull'estrazione di informazioni strutturate da testo libero e sulla memorizzazione in un database di tali entità, attributi e informazioni sulle relazioni. Le attività secondarie comuni di estrazione delle informazioni comprendono:

La selezione della funzione, o selezione dell'attributo, è il processo di selezione delle funzioni (dimensioni) importanti per contribuire maggiormente all'output di un modello di analytics predittiva.
L'estrazione delle funzioni è il processo di selezione di un sottoinsieme di funzioni per migliorare l'accuratezza di un'attività di classificazione. Ciò è particolarmente importante per la riduzione della dimensionalità.
Il riconoscimento di entità nominate (NER, named-entity recognition), noto anche come identificazione delle entità o estrazione delle entità, punta ad identificare e categorizzare entità specifiche nel testo, come nomi o località. Ad esempio, NER identifica "California" come luogo e "Mary" come nome di donna.

Data mining

Il data mining è il processo di identificazione di modelli ed estrazione di insight utili da insiemi di big data. Questa pratica valuta i dati strutturati e non strutturati per identificare nuove informazioni ed è comunemente utilizzata per analizzare i comportamenti degli utenti nell'ambito delle vendite e del marketing. Il text mining è essenzialmente un campo secondario del data mining, in quanto si concentra sulla strutturazione di dati non strutturati e sulla relativa analisi per generare nuovi insight. Le tecniche sopra menzionate sono forme di data mining ma rientrano nell'ambito dell'analisi dei dati di testo.

Applicazioni di text mining

Il software di analytics del testo ha avuto un impatto sul modo di lavorare di molti settori, consentendo di migliorare le esperienze utente dei prodotti e di prendere decisioni aziendali migliori e più rapide. Alcuni casi di utilizzo includono:

Servizio clienti: esistono diversi modi per richiedere il feedback ai nostri utenti. Quando combinati con gli strumenti di analytics del testo, i sistemi di feedback, come chatbot, sondaggi sui clienti, punteggi net-promoter (NPS, net-promoter score), recensioni online, ticket di supporto e profili di social media, consentono alle aziende di migliorare rapidamente la propria esperienza cliente. Il text mining e l'analisi del sentiment possono offrire alle aziende un meccanismo per assegnare priorità ai punti critici principali per i propri clienti, consentendo di rispondere a problematiche urgenti in tempo reale, migliorando la soddisfazione del cliente. Scopri in che modo Verizon utilizza l'analytics del testo nel servizio clienti.

Gestione del rischio: il text mining ha anche applicazioni nella gestione dei rischi, dove può fornire insight sulle tendenze di settore e sui mercati finanziari monitorando le variazioni del sentiment ed estraendo le informazioni da whitepaper e report degli analisti. Ciò è particolarmente prezioso per le istituzioni bancarie, in quanto questi dati forniscono maggiore fiducia quando si considerano gli investimenti aziendali in diversi settori. Scopri in che modo CIBC ed EquBot utilizzano l'analytics del testo per la riduzione dei rischi.

Manutenzione: il text mining fornisce una visione completa e dettagliata del funzionamento e delle funzionalità di prodotti e macchinari. Nel tempo, il text mining automatizza il processo decisionale rivelando modelli correlati a problemi e procedure di manutenzione preventiva e reattiva. L'analytics del testo aiuta i professionisti della manutenzione a scoprire più rapidamente le cause principali di sfide e malfunzionamenti.

Assistenza sanitaria: le tecniche di text mining sono diventate sempre più preziose per i ricercatori in campo biomedico, in particolare per il raggruppamento delle informazioni. L'indagine manuale della ricerca medica può essere costosa e richiedere molto tempo; il text mining fornisce un metodo di automazione per estrarre informazioni utili dalla letteratura medica.

Filtro della posta indesiderata: la posta indesiderata funge spesso da punto di ingresso per gli hacker per infettare i sistemi informatici con malware. Il text mining può fornire un metodo per filtrare ed escludere queste e-mail dalle caselle di posta, migliorando l'esperienza utente complessiva e riducendo al minimo il rischio di attacchi informatici per gli utenti finali.

Soluzioni correlate

IBM Watson Discovery

IBM Watson Discovery è una potente e pluripremiata tecnologia di ricerca basata sull'AI che elimina i silos di dati e recupera le informazioni che si nascondono nei dati aziendali.

Esplora Watson Discovery

NLU (Natural Language Understanding)

Watson Natural Language Understanding è un prodotto nativo del cloud che utilizza il deep learning per estrarre i metadati dal testo, come parole chiave, emozioni e sintassi.

Esplora NLU (Natural Language Understanding)

NLP (Natural Language Processing)

NLP è l'AI che parla la lingua della tua azienda. Crea soluzioni che generano un ROI del 383% in tre anni con IBM Watson Discovery.

Esplora NLP (Natural Language Processing)

Risorse

IBM Watson consente alla tua azienda di iniziare ad utilizzare l'analytics del testo

Scopri in che modo IBM Watson può fornire aiuto con l'analytics del testo.

Text mining per la storia: primi passi per la creazione di un grande set di dati

Questo documento illustra gli sforzi iniziali miranti a creare un nuovo corpus del dominio della storia.

Passa alla fase successiva

Individua le tendenze con IBM Watson Discovery, per consentire alla tua azienda di prendere decisioni migliori informate dai dati. L'analytics del testo analizza i dati in tempo reale per rivelare modelli nascosti, tendenze e relazioni tra diverse porzioni di contenuto. Utilizza l'analytics del testo per ottenere insight sui comportamenti di utenti e clienti, analizzare le tendenze nei social media e nell'e-commerce, individuare le cause principali dei problemi e altro ancora. Gli insight nascosti contengono un valore aziendale non sfruttato.

Prova IBM Watson Discovery oggi stesso