Home topics Apprendimento semi-supervisionato Che cos'è l'apprendimento semi-supervisionato?
Esplora IBM watsonx.ai
Una griglia di punti di diversi colori e dimensioni

Pubblicato: 19 dicembre 2023
Collaboratori: Dave Bergmann

Che cos'è l'apprendimento semi-supervisionato?

L'apprendimento semi-supervisionato è una branca dell'apprendimento automatico che combina l'apprendimento supervisionato e quello non supervisionato. In questa tipologia di apprendimento vengono utilizzati sia dati "labeled" (etichettati) che "unlabeled" (non etichettati) per formare i modelli di intelligenza artificiale necessari per le operazioni di classificazione e regressione.

Sebbene l'apprendimento semi-supervisionato sia generalmente utilizzato per gli stessi casi d'uso di quello supervisionato, esso si distingue per le tecniche che incorporano dati senza etichetta nell'addestramento dei modelli, oltre ai dati etichettati richiesti per l'apprendimento supervisionato convenzionale.

I metodi di apprendimento semi-supervisionati sono particolarmente utili in situazioni in cui ottenere una quantità sufficiente di dati etichettati è eccessivamente difficile o costoso, mentre è relativamente facile acquisire grandi quantità di dati non etichettati. In tali scenari, né i metodi di apprendimento completamente supervisionati né quelli non supervisionati forniranno soluzioni adeguate.

Dati etichettati e apprendimento automatico

L'addestramento di modelli di intelligenza artificiale per attività di previsione, come la classificazione o la regressione, richiede in genere dati etichettati, ovvero dei punti dati annotati che forniscono il contesto necessario e dimostrano le previsioni corrette (output) per ogni input-campione. Durante la fase di addestramento, una funzione di perdita misura la differenza (perdita) tra le previsioni del modello per un dato input e la “verità di base” fornita dall'etichetta di quell'input. I modelli apprendono da questi esempi etichettati utilizzando tecniche come la discesa del gradiente, che adeguano i pesi del modello per ridurre al minimo le perdite. Poiché questo processo di apprendimento automatico coinvolge attivamente gli esseri umani, esso viene chiamato apprendimento “supervisionato”.

L'etichettatura corretta dei dati diventa sempre più laboriosa per le attività di AI complesse. Ad esempio, per addestrare un modello di classificazione delle immagini a distinguere tra automobili e motociclette, centinaia (se non migliaia) di immagini di addestramento devono essere etichettate come «automobile» o «motocicletta»; per un'attività di visione artificiale più dettagliata, come il rilevamento di oggetti, gli operatori umani non devono solo annotare gli oggetti contenuti in ciascuna immagine, ma anche dove si trova ciascun oggetto; per attività ancora più dettagliate, come la segmentazione delle immagini, le etichette dati devono annotare i confini specifici pixel per pixel di segmenti diversi per ciascuna immagine.

L'etichettatura dei dati può risultare pertanto particolarmente tediosa per alcuni casi d'uso. Nei casi d’uso più specializzati dell'apprendimento automatico, come la scoperta di farmaci, il sequenziamento genetico o la classificazione delle proteine, l’annotazione dei dati non solo richiede molto tempo, ma anche competenze molto specifiche.

L’apprendimento semi-supervisionato offre un modo per trarre il massimo beneficio da una scarsa quantità di dati etichettati, facendo al tempo stesso uso di dati non etichettati relativamente abbondanti. 

Fai un tour di IBM watsonx.ai

Uno studio aziendale di nuova generazione per i builder AI con cui addestrare, convalidare, adattare e implementare modelli AI.

Contenuti correlati

Abbonati alle newsletter IBM

Confronto fra apprendimento semi-supervisionato, apprendimento supervisionato e apprendimento non supervisionato

L'apprendimento semi-supervisionato può essere considerato un ibrido o una via di mezzo tra l'apprendimento supervisionato e quello non supervisionato.

Apprendimento semi-supervisionato vs apprendimento supervisionato

La distinzione principale tra l'apprendimento automatico semi-supervisionato e completamente supervisionato è che quest'ultimo può essere addestrato esclusivamente utilizzando set di dati completamente etichettati, mentre il primo sfrutta campioni di dati sia etichettati che non etichettati. Le tecniche di apprendimento semi-supervisionato modificano o integrano un algoritmo supervisionato – chiamato “base learner”, in questo contesto – per incorporare informazioni da esempi non etichettati. I punti dati etichettati vengono utilizzati per consolidare le previsioni del base learner e aggiungere una struttura (ad esempio quante classi esistono e le caratteristiche fondamentali di ciascuna) al problema dell'apprendimento.

L'obiettivo dell'addestramento in qualsiasi modello di classificazione è l'apprendimento di un limite decisionale preciso: una linea o, per i dati con più di due dimensioni, una "superficie" o un iperpiano, separa i punti dati di una categoria di classificazione dai punti dati appartenenti a una categoria diversa. Sebbene un modello di classificazione completamente supervisionato possa apprendere un confine decisionale utilizzando solo pochi punti dati etichettati, potrebbe non applicarsi in modo soddisfacente a esempi del mondo reale, rendendo le previsioni del modello inaffidabili.

Il classico dataset "a mezze lune" visualizza le carenze dei modelli supervisionati che si basano su un numero troppo basso di punti dati etichettati. Anche se il confine decisionale “corretto” separerebbe ciascuna delle due mezzelune, è probabile che un modello di apprendimento supervisionato si conformi eccessivamente ai pochi punti dati etichettati disponibili. I punti dati senza etichetta trasmettono chiaramente un contesto utile, ma un algoritmo supervisionato tradizionale non può elaborare dati senza etichetta.

Apprendimento semi-supervisionato vs apprendimento non supervisionato

A differenza dell'apprendimento semi-supervisionato (e di quello completamente supervisionato), gli algoritmi di apprendimento non supervisionato non utilizzano né dati etichettati né funzioni di perdita. L’apprendimento non supervisionato evita qualsiasi contesto di “verità di base” rispetto al quale l’accuratezza del modello possa essere misurata e ottimizzata.

Un approccio semi-supervisionato sempre più comune, in particolare per i modelli linguistici di grandi dimensioni, consiste nel “pre-addestrare” i modelli tramite compiti non supervisionati che richiedono l'apprendimento di rappresentazioni significative di set di dati non etichettati. Quando tali compiti implicano una "verità di base" e una funzione di perdita (senza annotazione manuale dei dati), vengono chiamati apprendimento auto-supervisionato. Dopo la successiva “ottimizzazione supervisionata” su una piccola quantità di dati etichettati, i modelli pre-addestrati possono spesso raggiungere prestazioni paragonabili ai modelli completamente supervisionati.

Sebbene i metodi di apprendimento senza supervisione possano tornare utili in molti scenari, la mancanza di contesto può renderli poco adatti alla classificazione. Prendiamo, ad esempio, come un tipico algoritmo di clustering, che raggruppa i punti dati in un numero predeterminato di cluster in base alla loro vicinanza l'uno all'altro, tratterebbe il set di dati a mezzaluna.

Apprendimento semi-supervisionato vs apprendimento auto-supervisionato

Sia l'apprendimento semi-supervisionato che quello auto-supervisionato mirano a aggirare la necessità di grandi quantità di dati etichettati. Mentre l'apprendimento semi-supervisionato prevede l'impiego di alcuni dati etichettati, i metodi di apprendimento auto-supervisionati come autoencoder sono realmente non supervisionati.

Mentre l'apprendimento supervisionato (e quello semi-supervisionato) richiede una "verità di base" esterna, sotto forma di dati etichettati, i compiti di apprendimento auto-supervisionato derivano la verità di base dalla struttura sottostante dei campioni non etichettati. Molti compiti auto-supervisionati non sono utili di per sé: la loro utilità sta nell'insegnare ai modelli rappresentazioni di dati utili ai fini delle successive "attività a valle". In quanto tali, vengono spesso chiamati “attività-pretesto”.

Se combinate con attività a valle supervisionate, le attività-pretesto autosupervisionate costituiscono quindi parte di un processo di apprendimento semi-supervisionato: un metodo di apprendimento che utilizza sia dati etichettati che non etichettati per l'addestramento del modello.

Come funziona l'apprendimento semi-supervisionato?

L'apprendimento semi-supervisionato si basa su determinati presupposti sui dati senza etichetta utilizzati per addestrare il modello, e sul modo in cui i punti dati di classi diverse si relazionano tra loro.

Una condizione necessaria per l'apprendimento semi-supervisionato (SSL) è che gli esempi non etichettati utilizzati per addestrare il modello devono essere pertinenti al compito per il quale quest'ultimo viene addestrato. In termini più formali, lo SSL esige che la distribuzione p(x) dei dati di input contenga informazioni sulla distribuzione posteriore p(y|x), ovvero la probabilità condizionale di un dato punto dati (x) appartenente a una determinata classe (y). Se ad esempio si utilizzano dati non etichettati per addestrare un classificatore di immagini a distinguere tra immagini di gatti e immagini di cani, il set dei dati di addestramento dovrà contenere immagini sia di cani che di gatti, mentre immagini di cavalli e motociclette non saranno di alcun beneficio.

Di conseguenza, se da una parte uno studio del 2018 sugli algoritmi di apprendimento semi-supervisionato ha rilevato che “l’aumento della quantità di dati non etichettati tende a migliorare le prestazioni delle tecniche SSL”, ha anche scoperto che “l’aggiunta di dati non etichettati da un insieme di classi non corrispondenti, invece, può addirittura danneggiare le prestazioni, rispetto a una situazione in cui i dati etichettati non sono utilizzati affatto". 1

La condizione di base che p( x ) abbia una relazione significativa con p(x|y) dà luogo a molteplici ipotesi, o presupposti, circa la natura di tale relazione. Questi presupposti sono la forza trainante che sottostà alla maggior parte, se non a tutti, i metodi SSL: in generale, ogni algoritmo di apprendimento semi-supervisionato si basa sul fatto che una o più delle seguenti ipotesi siano soddisfatte, in modo esplicito o implicito.

Ipotesi del cluster

L'ipotesi del cluster afferma che i punti dati appartenenti al medesimo cluster, ovvero a un insieme di punti dati più simili tra loro rispetto ad altri punti dati disponibili, appartengano alla medesima classe.

Anche se a volte viene considerata come un'ipotesi indipendente, l'ipotesi del cluster è stata anche descritta da van Engelen e Hoos come "una generalizzazione delle altre ipotesi".2 In questa prospettiva, la determinazione dei cluster dei punti dati dipende dalla nozione di somiglianza utilizzata. L’ipotesi di continuità, l’ipotesi di bassa densità e l’ipotesi molteplice sfruttano ciascuna semplicemente una definizione diversa di ciò che costituisce un punto dati “simile”.

Ipotesi di continuità

Le ipotesi di continuità affermano che se due punti dati, x e x', sono vicini l'uno all'altro nello spazio di input (l'insieme di tutti i valori possibili per x), allora le loro etichette y e y' devono essere le medesime.

Questo presupposto, noto anche come presupposto di continuità, vale per la maggior parte delle istanze di apprendimento supervisionato: ad esempio, durante l'addestramento i classificatori apprendono un’approssimazione significativa (o “rappresentazione”) di ciascuna classe rilevante; una volta addestrati, essi determinano la classificazione dei nuovi punti dati attraverso la rappresentazione a cui assomigliano maggiormente.

Nel contesto SSL, l'ipotesi di continuità presenta l'ulteriore vantaggio di essere applicata in modo transitorio ai dati non etichettati. Consideriamo uno scenario che coinvolge tre punti dati:

  • un punto dati etichettato, x1
  • un punto dati non etichettato, x2, vicino a x1
  • un altro punto dati non etichettato, x3, vicino a x2 ma non a x1

L'ipotesi di continuità ci dice che x2 deve avere la stessa etichetta di x1. Ci dice anche che x3 deve avere la stessa etichetta di x2. Pertanto, possiamo supporre che tutti e tre i punti dati abbiano la stessa etichetta, perché l'etichetta di x1 si propagata per proprietà transitiva a x3 a causa della vicinanza di x3a x2.

Ipotesi di bassa densità

L’ipotesi di bassa densità afferma che il confine decisionale tra le classi non deve passare attraverso regioni ad alta densità. In altre parole, tale confine deve ricadere in un’area che contiene pochi punti dati.

L'ipotesi di bassa densità può pertanto essere concepita come un'estensione dell'ipotesi del cluster (in quanto un cluster ad alta densità di punti dati rappresenta una classe, piuttosto che il confine tra classi) e dell'ipotesi di continuità (in quanto se più punti dati sono vicini l'uno all'altro, dovrebbero condividere un'etichetta e quindi ricadere sullo stesso lato del confine decisionale).

Questo diagramma illustra come le ipotesi di continuità e di bassa densità possano determinare un confine decisionale molto più intuitivo di quanto sarebbe possibile con metodi supervisionati, che prendere in considerazione solo i (pochissimi) punti dati etichettati.

Ipotesi molteplice

L'ipotesi molteplice afferma che lo spazio di input dimensionalmente più elevato comprende collettori di dimensioni inferiori sulle quali giacciono tutti i punti dati, e che i punti dati del medesimo collettore condividono la medesima etichetta.

Per un esempio intuitivo, prediamo un foglio di carta che viene accartocciato fino a formare una palla. La posizione di qualsiasi punto sulla superficie sferica può essere mappata solo con coordinate x,y,z tridimensionali. Ma se quella palla accartocciata viene ora spiegata nuovamente in un foglio di carta, quegli stessi punti possono ora essere mappati con coordinate x,y bidimensionali. Questa operazione è chiamata riduzione della dimensionalità e può essere ottenuta matematicamente utilizzando metodi come autoencoder o convoluzioni.

Nell'apprendimento automatico, le dimensioni non corrispondono alle dimensioni fisiche a noi familiari, ma a ciascun attributo o caratteristica dei dati. Ad esempio, una piccola immagine RGB che misura 32x32 pixel ha 3.072 dimensioni, ovvero1.024 pixel ognuno dei quali ha tre valori (per rosso, verde e blu). Confrontare punti dati con così tante dimensioni è complicato, sia a causa della complessità e delle risorse computazionali richieste, sia perché la maggior parte di quello spazio ad alta dimensione non contiene informazioni significative per l'attività da svolgere.

L'ipotesi molteplice sostiene che quando un modello apprende la corretta funzione di riduzione della dimensionalità per scartare le informazioni irrilevanti, i punti dati eterogenei convergono verso una rappresentazione più significativa, per la quale le altre ipotesi SSL risultano più affidabili.

Apprendimento trasduttivo

I metodi di apprendimento trasduttivo sfruttano le etichette disponibili per discernere le previsioni di etichetta per un dato insieme di punti dati non etichettati, in modo che possano essere utilizzati da un base learner supervisionato.

Mentre i metodi induttivi mirano ad addestrare un classificatore in grado di modellare l'intero spazio di input (etichettato e non etichettato), i metodi trasduttivi vogliono esclusivamente generare previsioni di etichetta per i dati non etichettati. Gli algoritmi utilizzati per l'apprendimento trasduttivo non sono in larga parte legati agli algoritmi che verranno usati per addestrare il modello di classificatore supervisionato utilizzando i dati appena etichettati.

Propagazione delle etichette

La propagazione di etichette è un algoritmo basato su grafici che calcola le assegnazioni di etichette per i punti dati non etichettati in base alla loro vicinanza rispetto a dei punti dati etichettati, sfruttando l'ipotesi di continuità e quella del cluster.

L'intuizione alla base dell'algoritmo è che sia possibile mappare un grafico completamente connesso in cui i nodi siano tutti i punti dati disponibili, sia etichettati che non etichettati. Più due nodi sono vicini, in basa a una misura di distanza prescelta, come la distanza euclidea (il collegamento risiede al di fuori di ibm.com), tanto più viene ponderato nell'algoritmo il confine esistente tra di essi. Partendo dai punti dati etichettati, le etichette si propagano pertanto in modo iterativo attraverso i punti dati vicini senza etichetta, utilizzando le ipotesi di continuità e del cluster.

Apprendimento attivo

Gli algoritmi di apprendimento attivo non automatizzano l'etichettatura dei punti dati: vengono invece utilizzati nel SSL per determinare quali campioni non etichettati fornirebbero le informazioni più utili se venissero etichettati manualmente.3 L'impiego dell'apprendimento attivo in contesti semi-supervisionati ha dato risultati promettenti. Uno studio recente ha rilevato che il suo utilizzlo ha più che dimezzato la quantità di dati etichettati necessari per addestrare efficacemente un modello per la segmentazione semantica.4

Apprendimento induttivo

I metodi induttivi di apprendimento semi-supervisionato mirano ad addestrare un modello di classificazione (o regressione) in modo diretto, utilizzando dati etichettati e non etichettati.

I metodi SSL induttivi possono generalmente essere differenziati per il modo in cui incorporano i dati non etichettati, ovvero tramite una fase di pseudo-etichettatura, una fase di pre-elaborazione non supervisionata o mediante incorporazione diretta nella funzione obiettivo del modello.

Metodi wrapper

Un modo relativamente semplice per estendere gli algoritmi supervisionati attuali a un'impostazione semi-supervisionata consiste nell'addestrare inizialmente il modello sui dati etichettati disponibili, o semplicemente utilizzare un classificatore preesistente adatto, e quindi generare previsioni con pseudo-etichetta per i punti dati non etichettati. Il modello può quindi essere riaddestrato utilizzando sia i dati originariamente etichettati che i dati pseudo-etichettati, senza distinguere tra i due.

Il vantaggio principale dei metodi wrapper, oltre alla loro semplicità, è che sono compatibili con quasi tutti i tipi di base learner supervisionati. La maggior parte dei metodi wrapper introducono alcune tecniche di regolarizzazione per ridurre il rischio di corroborare previsioni di pseudo-etichette potenzialmente imprecise.
 

Auto-addestramento
L'auto-addestramento è un metodo wrapper di base. Esso richiede previsioni di pseudo-etichette di natura probabilistica, piuttosto che deterministica: ad esempio, un modello che restituisca “85% cane, 15% gatto” invece di restituire semplicemente “cane”.

Le previsioni probabilistiche con pseudo-etichetta consentono agli algoritmi di auto-addestramento di accettare solo previsioni che superano una certa soglia di confidenza, in un processo simile alla minimizzazione dell'entropia.5 Questo processo può essere eseguito in modo iterativo, per ottimizzare il processo di pseudo-classificazione o per raggiungere un certo numero di campioni pseudo-etichettati.

Co-addestramento
I metodi di co-addestramento ampliano il concetto di auto-addestramento formando più base learner supervisionati all'assegnazione di pseudo-etichette.

La diversificazione ha lo scopo di ridurre la tendenza a corroborare previsioni iniziali poco verosimili. È quindi importante che le previsioni di ogni base learner non siano strettamente correlate tra di esse. Un approccio tipico consiste nell'utilizzare algoritmi diversi per ciascun classificatore. Un'altro approccio prevede che ogni classificatore si concentri su un sottoinsieme diverso di dati: per esempio, nei dati video si addestra un base learner sui dati visivi e l'altro sui dati audio.

Pre-elaborazione non supervisionata

A differenza dei metodi wrapper (e degli algoritmi intrinsecamente semi-supervisionati), che utilizzano contemporaneamente dati etichettati e non etichettati, alcuni metodi SSL utilizzano dati non etichettati ed etichettati in fasi separate: una fase di pre-elaborazione non supervisionata, seguita da una fase supervisionata.

Come i metodi wrapper, tali tecniche possono essere utilizzate essenzialmente per qualsiasi base learner supervisionato. A differenza dei metodi wrapper, però, il modello supervisionato “principale” viene infine addestrato solo su punti dati etichettati all'origine (annotati da un operatore umano).

Le tecniche di pre-elaborazione vanno dall'estrazione di funzionalità utili da dati non etichettati, al pre-clustering di punti dati non etichettati, e all'utilizzo del «pre-addestramento» per determinare i parametri iniziali di un modello supervisionato (in un processo simile alle attività pre-testuali eseguite nell'apprendimento auto-supervisionato).
 

Cluster-then-label
Una semplice tecnica semi-supevisionata prevede il clustering di tutti i punti dati (etichettati e non etichettati) utilizzando un algoritmo non supervisionato. Sfruttando l'ipotesi del cluster, questi cluster possono essere utilizzati per aiutare ad addestrare un modello di classificatore indipendente oppure, se i punti dati etichettati in un determinato cluster sono tutti della stessa classe, pseudo-etichettare i punti dati senza etichetta e procedere in modo simile ai metodi wrapper.

Come dimostrato dall’esempio delle “mezze lune” all’inizio di questo articolo, metodi semplici (come k-vicini più vicini) possono produrre previsioni inadeguate. Algoritmi di clustering più raffinati, come DBSCAN (che implementa l'ipotesi di bassa densità),6 hanno raggiunto una maggiore affidabilità.

Pre-addestramento ed estrazione delle caratteristiche
Il pre-addestramento non supervisionato (o auto-supervisionato) consente ai modelli di apprendere rappresentazioni utili dello spazio di input, riducendo la quantità di dati etichettati necessari per tarare un modello con l'apprendimento supervisionato.

Un approccio diffuso consiste nell'impiegare una rete neurale, spesso un codificatore automatico, per apprendere un embedding o una rappresentazione di caratteristiche dei dati di input, quindi utilizzare dette caratteristiche per addestrare un base learner supervisionato. Spesso questo comporta una riduzione della dimensionalità, e aiuta a sfruttare l'ipotesi molteplice.

Metodi intrinsecamente semi-supervisionati

Alcuni metodi SSL inseriscono direttamente i dati non etichettati nella funzione obiettivo del base learner piuttosto che elaborare i dati non etichettati in una fase separata di pseudo-etichettatura o pre-elaborazione.
 

Macchine vettoriali di supporto semi-supervisionate
Quando i punti dati di diverse categorie non sono linearmente separabili, ovvero quando nessuna linea retta può definire in modo netto e accurato il confine tra le categorie, gli algoritmi SVM (Support Vector Machine) mappano i dati in uno spazio di caratteristiche di dimensione superiore, in cui le categorie possono essere separate da un iperpianoe. Nel determinare questo limite decisionale, gli algoritmi SVM massimizzano il margine tra il limite decisionale e i punti dati più vicini ad esso. Questo, in pratica, applica l'ipotesi della bassa densità.

In un ambiente supervisionato, un termine di regolarizzazione penalizza l'algoritmo quando i punti dati etichettati ricadono sulla parte sbagliata del confine decisionale. Nelle SVM semi-supervisionate (S3VM), ciò non è possibile per i punti dati senza etichetta (la cui classificazione è sconosciuta), pertanto le S3VM penalizzano anche i punti dati che si trovano all'interno del margine prescritto.

Modelli di deep learning intrinsecamente semi-supervisionati
Un'ampia varietà di architetture di rete neurali è stata adattata all'apprendimento semi-supervisionato. Questio avviene aggiungendo o modificando i termini di perdita tipicamente utilizzati in queste architetture, cosa che permette l'incorporazione di punti dati senza etichetta nell'addestramento.

Tra le architetture di deep learning semi-supervisionato proposte figurano reti di scala,7 pseudo-ensemble,8 ensembling temporale,9 e alcune modifiche alle reti generative avversarie (GANS).10

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e distribuisci AI generativa, foundation model e funzionalità di machine learning con facilità e crea applicazioni AI in un tempo brevissimo con pochissimi dati.

Esplora watsonx.ai

IBM watsonx.data

IBM® watsonx.data™ permette alle aziende di scalare analytics e AI con uno storage dei dati adatto allo scopo, basato su un'architettura open lakehouse, supportata da query, governance e formati open data per accedere ai dati e condividerli. puoi collegarti ai dati in pochi minuti, ottenere rapidamente insight attendibili e ridurre i costi del data warehouse.

Esplora watsonx.data
Risorse di apprendimento semi-supervisionate

Corsi e risorse per saperne di più sull'apprendimento semi-supervisionato e sulla sua collocazione nel più ampio contesto dell'apprendimento automatico.

La regressione e la classificazione nell'apprendimento automatico

Esplora due importanti sottoinsiemi di apprendimento automatico supervisionato, ovvero la regressione e classificazione. Imparare a formare i modelli di regressione per prevedere risultati continuativi e formare i modelli predittivi per classificare i risultati categorici.

Cos'è l'etichettatura dei dati?

L'aggiunta di una o più etichette genera un contesto che consente a un modello di apprendimento automatico di formulare previsioni precise. Esplora gli usi e i vantaggi dell'etichettatura dei dati, incluse le diverse tecniche e best practice.

Come i dati non etichettati migliorano la generalizzazione nell'addestramento autonomo

L'addestramento autonomo, che è un algoritmo di apprendimento semi-supervisionato, sfrutta una grande quantità di dati non etichettati per migliorare l'apprendimento quando la disponibilità di dati etichettati è limitata. Questo lavoro stabilisce un'analisi teorica per il noto paradigma di autoapprendimento iterativo noto, e dimostra i vantaggi dei dati non etichettati nella formazione.

Fasi successive

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

1 "Realistic Evaluation of Deep Semi-Supervised Learning Algorithms"( link esterno a ibm.com), arXiv, 17 giugno 2019
2 "A survey on semi-supervised learning" ( link esterno a ibm.com), Springer, 15 novembre 2019
3 "Transductive active learning – A new semi-supervised learning approach based on iteratively refined generative models to capture structure in data" ( link esterno a ibm.com), Information Sciences (Volume 293), 18 settembre 2014
4 "Semantic Segmentation with Active Semi-Supervised Learning" ( link esterno a ibm.com), arXiv, 16 ottobre 2022
5 "Semi-supervised learning by Entropy Minimization" ( link esterno a ibm.com), Advances in Neural Information Processing Systems 17, 2004
6 "Density-based semi-supervised clustering" (link esterno a ibm.com), Data Mining and Knowledge Discovery, novembre 2010
7 "Semi-Supervised Learning with Ladder Networks" ( link esterno a ibm.com), arXiv, 24 novembre 2015
8 "Learning with Pseudo-Ensembles" ( link esterno a ibm.com), arXiv, 16 dicembre 2014
9 "Temporal Ensembling for Semi-Supervised Learning" ( link esterno a outside ibm.com), arXiv, 15 marzo 2017
10 "Improved Techniques for Training GANs" ( link esterno a ibm.com), arXiv, 10 giugno 2016