Cos'è l'etichettatura dei dati?

Cos'è l'etichettatura dei dati?

L'etichettatura dei dati, o annotazione dei dati, fa parte della fase di pre-elaborazione durante lo sviluppo di un modello di machine learning (ML).

L'etichettatura dei dati implica l'identificazione dei dati non elaborati, come immagini, file di testo o video e l'assegnazione di una o più etichette per specificarne il contesto per i modelli di machine learning. Queste etichette aiutano i modelli a interpretare correttamente i dati, consentendo loro di fare previsioni accurate.

L'etichettatura dei dati è alla base di diversi casi d'uso di machine learning e deep learning, tra cui la computer vision e l'elaborazione del linguaggio naturale (NLP).

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Come funziona l'etichettatura dei dati?

Le aziende integrano software, processi e annotatori di dati per pulire, strutturare ed etichettare i dati. Questi dati di addestramento diventano la base per i modelli di machine learning. Queste etichette consentono agli analisti di isolare le variabili all'interno dei set di dati e questo, a sua volta, consente la selezione di predittori di dati ottimali per i modelli di ML. Le etichette identificano i vettori di dati appropriati da inserire per l'addestramento del modello, dove il modello, quindi, impara a fare le migliori previsioni.

Oltre all'assistenza delle macchine, le attività di etichettatura dei dati richiedono il contributo dell'approccio "human-in-the-loop (HITL)". L'HITL sfrutta il giudizio di "etichettatori di dati" umani per creare, addestrare, perfezionare e testare modelli di ML. Questi aiutano a guidare il processo di etichettatura dei dati fornendo ai modelli i set di dati più applicabili a un progetto.

Dati etichettati e dati non etichettati

I computer utilizzano dati etichettati e non etichettati per addestrare i modelli di ML, ma qual è la differenza?

  • I dati etichettati vengono utilizzati nell'apprendimento supervisionato, mentre quelli non etichettati vengono utilizzati nell'apprendimento non supervisionato.

  • I dati etichettati sono più difficili da acquisire e archiviare (ad es. con maggiori costi in termini di tempo e denaro), mentre i dati non etichettati sono più facili da acquisire e memorizzare.

  • I dati etichettati possono essere utilizzati per determinare insight attuabili (ad esempio, attività di forecasting), mentre i dati senza etichetta hanno una utilità più limitata. I metodi di apprendimento non supervisionato possono aiutare a scoprire nuovi cluster di dati, consentendo nuove categorizzazioni durante l'etichettatura.

I computer possono anche utilizzare dati combinati per l'apprendimento semi-supervisionato, che riduce la necessità di etichettare manualmente i dati fornendo al contempo un ampio set di dati annotati.

AI Academy

Diventa un esperto di AI

Acquisisci le conoscenze necessarie per dare priorità agli investimenti nell'AI alla base della crescita aziendale. Inizia oggi stesso con la nostra AI Academy gratuita e guida il futuro dell'AI nella tua organizzazione.

Approcci all'etichettatura dei dati

L'etichettatura dei dati è un passo fondamentale nello sviluppo di un modello di apprendimento automatico (ML) ad alte prestazioni. Anche se l'etichettatura sembra semplice, non è sempre facile da implementare. Di conseguenza, le aziende devono considerare diversi fattori e metodi per determinare l'approccio migliore all'etichettatura. Poiché ogni metodo di etichettatura dei dati ha i suoi pro e contro, si consiglia una valutazione dettagliata della complessità del compito, nonché delle dimensioni, dell'ambito e della durata del progetto.

Di seguito sono riportati alcuni percorsi possibili per l'etichettatura dei dati:

  • Etichettatura interna:  l'utilizzo di esperti interni di data science semplifica il tracciamento, offre una maggiore precisione e migliora la qualità. Tuttavia, questo approccio richiede in genere più tempo e favorisce le grandi aziende con risorse estese.

  • Etichettatura sintetica: questo approccio genera nuovi dati di progetto da set di dati preesistenti, il che migliora la qualità dei dati e l'efficienza in termini di tempo. Tuttavia, l'etichettatura sintetica richiede una grande potenza di calcolo, che può causare un aumento dei prezzi.

  • Etichettatura programmatica: questo processo automatizzato di etichettatura dei dati utilizza degli script per ridurre il consumo di tempo e la necessità di annotazioni umane. Tuttavia, la possibilità di problemi tecnici richiede a HITL di rimanere parte del processo di controllo qualità (QA).

  • Outsourcing: può essere una scelta ottimale per progetti temporanei di alto livello, tuttavia lo sviluppo e la gestione di un workflow freelance-oriented può richiedere molto tempo. Sebbene le piattaforme di freelancing forniscano informazioni complete sui candidati per facilitare il processo di selezione, l'assunzione di team di etichettatura dei dati gestiti fornisce personale già verificato e strumenti di etichettatura dei dati precostituiti.

  • Crowdsourcing: questo approccio è più rapido ed economico grazie alla funzionalità di micro-tasking e alla distribuzione via web. Tuttavia, la qualità dei lavoratori, il controllo qualità e la gestione dei progetti variano a seconda delle piattaforme di crowdsourcing. Uno degli esempi più famosi di etichettatura di dati in crowdsourcing è Recaptcha. Questo progetto era duplice in quanto controllava i bot e allo stesso tempo migliorava l'annotazione dei dati delle immagini. Ad esempio, un prompt di Recaptcha chiedeva a un utente di identificare tutte le foto contenenti un'auto per dimostrare che era umano, e quindi questo programma era in grado di controllarsi autonomamente in base ai risultati degli altri utenti. L'input di questi utenti forniva un database di etichette per una serie di immagini.

Benefici e sfide della profilazione dei dati

Il compromesso generale dell'etichettatura dei dati è che, sebbene possa accelerare il processo di scalabilità di un'azienda, spesso ha un costo significativo. Dati più accurati portano a previsioni migliori sui modelli, rendendo l'etichettatura dei dati un investimento prezioso ma costoso. Nonostante il costo elevato, le aziende lo ritengono utile grazie alla maggiore precisione che offre.

Poiché l'annotazione dei dati aggiunge più contesto ai set di dati, migliora le prestazioni delle applicazioni di analisi esplorativa dei dati, machine learning (ML) e intelligenza artificiale (AI). Ad esempio, i dati etichettati contribuiscono a risultati di ricerca più pertinenti sulle piattaforme dei motori di ricerca e a migliori consigli sui prodotti nell'e-commerce. Di seguito approfondiremo altri vantaggi e sfide chiave.

Benefici

L'etichettatura dei dati offre a utenti, team e aziende un contesto, una qualità e un'usabilità maggiori. In particolare, ci si può aspettare:

  • Previsioni più precise: l'etichettatura accurata dei dati garantisce una migliore garanzia di qualità all'interno degli algoritmi di machine learning, consentendo al modello di addestrarsi e di produrre i risultati attesi. Altrimenti, come si dice nel campo dell'informatica, "garbage in, garbage out". I dati correttamente etichettati forniscono la "ground truth" (vale a dire, il modo in cui le etichette riflettono gli scenari del "mondo reale") per testare e iterare i modelli successivi.

  • Migliore utilizzo dei dati: l'etichettatura dei dati può anche migliorare l'usabilità delle variabili dei dati all'interno di un modello. Ad esempio, è possibile riclassificare una variabile categorica come variabile binaria per renderlo più consumabile per un modello. L'aggregazione dei dati in questo modo può ottimizzare il modello, riducendo il numero di variabili del modello o abilitando l'inclusione di variabili di controllo. Sia che tu stia utilizzando i dati per creare modelli di computer vision (mettere dei riquadri attorno agli oggetti) o modelli NLP (classificare il testo per il sentiment sociale), garantire dati di alta qualità è una priorità assoluta.

Le sfide

L'etichettatura dei dati comporta una serie di sfide. In particolare, alcune delle più comuni sono:

  • Tempi lunghi e costi elevati: sebbene l'etichettatura dei dati sia fondamentale per i modelli di machine learning, può essere costosa sia dal punto di vista delle risorse che del tempo. Se un'azienda adotta un approccio più automatizzato, i team di ingegneri devono comunque configurare le pipeline di dati prima che il trattamento dei dati e l'etichettatura manuale siano in genere costose e richiedono molto tempo.

  • Possibilità di errore umano: questi approcci di etichettatura sono soggetti anche all'errore umano (ad esempio, errori di codifica, errori di immissione manuale), che può ridurre la qualità dei dati. Questo, a sua volta, porta a un'elaborazione e a una modellazione dei dati imprecise. I controlli qualitativi sono essenziali per garantire la qualità dei dati.

Best practice per l'etichettatura dei dati

Indipendentemente dall'approccio, le seguenti best practice ottimizzano l'accuratezza e l'efficienza dell'etichettatura dei dati:

  • Le interfacce intuitive e semplificate riducono al minimo il carico cognitivo e il cambio di contesto per gli etichettatori umani.

  • Consenso: Misura il tasso di accordo tra più etichettatori (umani o macchine). Il punteggio di consenso viene calcolato dividendo la somma delle etichette concordanti per il numero totale di etichette per asset.

  • Controllo delle etichette: verifica l'accuratezza delle etichette e le aggiorna secondo necessità.

  • Apprendimento per trasferimento: prende uno o più modelli pre-addestrati da un set di dati e li applica a un altro. Ciò può includere l'apprendimento multi-task, in cui più attività vengono apprese in tandem.

  • Apprendimento attivo: una categoria di algoritmi di ML e un sottoinsieme dell'apprendimento semi-supervisionato che aiuta gli esseri umani a identificare i set di dati più adeguati. Gli approcci di apprendimento attivo includono:

    • Membership query synthesis: genera un'istanza sintetica e richiede un'etichetta.

    • Pool-based sampling: classifica tutte le istanze non etichettate in base alla misura dell'informatività e seleziona le migliori query da annotare.

    • Stream-based selective sampling : seleziona le istanze non etichettate una per una e le etichetta o le ignora a seconda della loro informatività o incertezza.

Casi d'uso dell'etichettatura dei dati

Sebbene l'etichettatura dei dati possa migliorare l'accuratezza, la qualità e l'usabilità in molteplici contesti in tutti i settori, i suoi casi d'uso più importanti includono:

  • Computer vision: un campo di intelligenza artificiale che utilizza i dati di training per creare un modello di computer vision che consente la segmentazione delle immagini e l'automazione delle categorie, identifica i punti chiave in un'immagine e rileva la posizione degli oggetti. IBM® offre una piattaforma di visione artificiale chiamata Maximo Visual Inspection, che consente agli esperti in materia (PMI) di etichettare e addestrare modelli di visione con deep learning. Questi modelli possono essere distribuiti nel cloud, su dispositivi edge e nei data center locali. La computer vision è utilizzata in diversi settori, dall'energia e dai servizi di pubblica utilità alla produzione e all'industria automobilistica. Entro il 2022, si prevede che questo settore in crescita raggiungerà un valore di mercato di 48,6 miliardi di dollari.

  • Elaborazione del linguaggio naturale (NLP): una branca dell'AI combina la linguistica computazionale con modelli statistici, di machine learning e di deep learning per identificare ed etichettare sezioni di testo importanti. Queste sezioni con tag generano dati di addestramento per l'analisi del sentiment, il riconoscimento dei nomi delle entità e il riconoscimento ottico dei caratteri. NLP è sempre più utilizzato in soluzioni aziendali come rilevamento dello spam, traduzione automatica, riconoscimento vocale, sintesi del testo, assistenti virtuali e chatbot e sistemi GPS vocali. Questo ha reso NLP un componente fondamentale nell'evoluzione dei processi aziendali mission-critical.
Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live