Che cos'è la messa a punto?

Data di pubblicazione: 15 marzo 2024
Collaboratori: Dave Bergmann

La messa a punto nell'apprendimento automatico (ML) è il processo di adattamento di un modello pre-addestrato per attività o casi d'uso specifici. È diventata una tecnica fondamentale di deep learning, in particolare nel processo di formazione dei foundation model utilizzati per l'AI generativa.

La messa a punto potrebbe essere considerata un sottoinsieme della più ampia tecnica dell'apprendimento per trasferimento: la pratica di sfruttare le conoscenze già apprese da un modello esistente come punto di partenza per l'apprendimento di nuovi compiti.

L'intuizione alla base della messa a punto è che, in sostanza, è più semplice ed economico affinare le funzionalità di un modello base pre-addestrato che ha già acquisito ampie conoscenze pertinenti per il compito da svolgere piuttosto che addestrare un nuovo modello da zero per quello scopo specifico. Ciò è particolarmente vero per i modelli di deep learning con milioni o addirittura miliardi di parametri, come i modelli linguistici di grandi dimensioni (LLP) che sono aumentati fino a essere prominenti nel campo dell'elaborazione del linguaggio naturale (NLP) o le complesse reti neurali convoluzionali (CNN) e i trasformatori di visione (ViT) utilizzati per le attività di computer vision come la classificazione delle immagini, il rilevamento degli oggetti o la segmentazione delle immagini.

Sfruttando la formazione precedente dei modelli attraverso l'apprendimento per trasferimento, la messa a punto può ridurre la quantità di costosa potenza di calcolo e di dati etichettati necessari per ottenere modelli di grandi dimensioni adattati a casi d'uso di nicchia e alle esigenze aziendali. Ad esempio, la messa a punto può essere utilizzata per regolare semplicemente il tono colloquiale di un LLM pre-addestrato o lo stile di illustrazione di un modello di generazione di immagini pre-addestrato; potrebbe anche essere utilizzata per integrare gli apprendimenti provenienti dal set di dati di addestramento originale di un modello con dati proprietari o conoscenze specializzate e specifiche del dominio.

La messa a punto svolge quindi un ruolo importante nell'applicazione reale dei modelli di machine learning, contribuendo a democratizzare l'accesso e la personalizzazione di modelli sofisticati.

AI generativa + Apprendimento automatico (ML) per le imprese

Questo e-book descrive come le organizzazioni possono integrare in tutta sicurezza l'AI generativa e la machine learning nella propria attività per ottenere un vantaggio competitivo significativo.

Contenuti correlati

Registrati per leggere la guida sui foundation model

Messa a punto e formazione a confronto

Sebbene la messa a punto sia apparentemente una tecnica utilizzata nell'addestramento dei modelli, è un processo distinto da ciò che viene convenzionalmente chiamato "addestramento". Per non ingenerare confusione, in questo contesto i data scientist si riferiscono di solito a quest'ultima fase come pre-addestramento.

(Pre-)Addestramento

All'inizio dell'addestramento (o, in questo contesto, pre-addestramento), il modello non ha ancora "appreso" nulla. L'addestramento inizia con un'inizializzazione casuale dei parametri del modello: i diversi pesi e distorsioni applicati alle operazioni matematiche che si verificano in ciascun nodo nella rete neurale.

L'addestramento si verifica iterativamente in due fasi: in un passo avanti, il modello esegue previsioni per un batch di input di campioni dal set di dati di addestramento e una funzione di perdita misura la differenza (o la perdita) tra le predizioni del modello per ogni input e le risposte "corrette" (o verità di base); durante la backpropagation, un algoritmo di ottimizzazione, in genere discesa del gradiente, viene utilizzato per regolare i pesi del modello nella rete per ridurre la perdita. Questi aggiustamenti ai pesi del modello rappresentano il modo in cui il modello "apprende". Il processo viene ripetuto in più fasi di addestramento fino a quando il modello non viene ritenuto sufficientemente addestrato.

L'apprendimento supervisionato convenzionale, che viene in genere utilizzato per pre-addestrare i modelli per attività di computer vision come la classificazione delle immagini, il rilevamento di oggetti o la segmentazione delle immagini, utilizza dati etichettati: le etichette (o annotazioni) forniscono sia la gamma di possibili risposte sia l'output di verità di base per ogni campione.

Gli LLM sono solitamente pre-addestrati attraverso l'apprendimento autoservisionato (SSL), in cui i modelli apprendono attraverso attività di analisi progettate per ricavare la verità di terreno dalla struttura intrinseca dei dati non etichettati. Questi compiti pretestuosi forniscono conoscenze utili per i compiti a valle. In genere adottano uno dei due approcci seguenti:

Autopredizione: mascherare una parte dell'input originale e incaricare il modello di ricostruirlo. Questa è la modalità di allenamento dominante per gli LLM.
Apprendimento contrastivo: modelli di formazione per apprendere incorporamenti simili per input correlati e incorporamenti diversi per input non correlati. Viene utilizzato principalmente nei modelli di computer vision progettati per il few-shot learning oppure lo zero-shot learning, come il Contrasting Language-Image Pretraining (CLIP).

SSL consente quindi di utilizzare nell'addestramento insiemi di dati di dimensioni massicce, senza dover annotare milioni o miliardi di punti dati. Ciò consente di risparmiare un'enorme quantità di lavoro, ma richiede comunque enormi risorse computazionali.

Messa a punto

Al contrario, la messa a punto implica tecniche per addestrare ulteriormente un modello i cui pesi sono già stati aggiornati attraverso un addestramento precedente. Utilizzando le conoscenze precedenti del modello base come punto di partenza, la messa a punto personalizza il modello addestrandolo su un set di dati più piccolo e specifico per l'attività.

Anche se il set di dati specifico dell'attività potrebbe teoricamente essere stato utilizzato per l'addestramento iniziale, l'addestramento di un modello di grandi dimensioni da zero su un set di dati di piccole dimensioni rischia di essere sovradimensionato: il modello potrebbe apprendere a funzionare bene negli esempi di addestramento, ma generalizzare male in caso di nuovi dati. Ciò renderebbe il modello inadatto al compito assegnato e vanificherebbe lo scopo dell'addestramento del modello.

La messa a punto offre quindi il meglio di entrambi i mondi: sfruttando l'ampia conoscenza e la stabilità acquisite durante il pre-addestramento su un enorme set di dati e affinando la conoscenza del modello di concetti più dettagliati e specifici. Data la crescente efficacia dei foundation model open source, spesso è possibile godere dei vantaggi senza alcun onere finanziario, computazionale o logistico legato al pre-addestramento.

Come funziona la messa a punto?

La messa a punto utilizza i pesi di un modello pre-addestrato come punto di partenza per un ulteriore addestramento su un set di dati più piccolo di esempi che riflettono più direttamente le attività e i casi d'uso specifici per i quali il modello verrà utilizzato. In genere comporta l'apprendimento supervisionato, ma può anche comportare l'apprendimento di rinforzo, l'apprendimento autovalutato o l'apprendimento supervisionato.

I set di dati utilizzati per la messa a punto trasmettono le conoscenze, lo stile, le attività o i casi d'uso specifici del dominio per i quali il modello pre-addestrato viene messo a punto. Ad esempio:

Un LLM pre-addestrato per il linguaggio generale potrebbe essere messo a punto per la codifica con un nuovo set di dati contenente richieste di programmazione pertinenti e frammenti di codice corrispondenti per ciascuna codifica.
Un modello di classificazione delle immagini utilizzato per identificare determinate specie di uccelli può apprendere nuove specie attraverso ulteriori campioni di addestramento etichettati.
Un LLM può apprendere a emulare uno stile di scrittura specifico attraverso l'apprendimento autovalutato su testi campione che rappresentano tale stile.

Apprendimento supervisionato, un sottoinsieme di apprendimento automatico che incorpora sia i dati etichettati sia quelli non etichettati, è vantaggioso quando lo scenario richiede un apprendimento supervisionato, ma gli esempi con etichette adeguate sono scarsi. La messa a punto semi-supervisionata ha prodotto risultati promettenti sia per le attività di computer vision¹ sia per le attività di NLP² e aiuta a ridurre l'onere di acquisire una quantità sufficiente di dati etichettati.

La messa a punto può essere utilizzata per aggiornare i pesi dell'intera rete, ma per motivi pratici non è sempre così. Esiste un'ampia gamma di metodi alternativi di messa a punto, spesso indicati con il termine ombrello di parameter-efficient fine-tuning (PEFT), che aggiornano solo un sottoinsieme selezionato di parametri del modello. I metodi PEFT, che vengono esplorati in seguito in questa sezione, possono ridurre le esigenze computazionali e ridurre il dimenticare catastrofico, il fenomeno in cui la messa a punto provoca la perdita o la destabilizzazione della conoscenza di base del modello, spesso senza uno scadimento significativo nelle prestazioni.

Data l'ampia varietà di tecniche di messa a punto e le numerose variabili inerenti a ciascuna, il raggiungimento di prestazioni ideali del modello richiede spesso più iterazioni di strategie e configurazioni di addestramento, regolando set di dati e iperparametri come la dimensione del batch, la velocità di apprendimento e i termini di regolarizzazione fino a raggiungere un risultato soddisfacente, indipendentemente dalla metrica più rilevante per il tuo caso d'uso.

Messa a punto completa

Il metodo concettualmente più semplice per la messa a punto è quello di aggiornare semplicemente l'intera rete neurale. Questa semplice metodologia assomiglia fondamentalmente al processo di pre-addestramento: le uniche differenze fondamentali tra i processi di messa a punto e di pre-addestramento sono il set di dati utilizzato e lo stato iniziale dei parametri del modello.

Per evitare modifiche destabilizzanti dal processo di messa a punto, alcuni iperparametri, ovvero gli attributi del modello che influenzano il processo di apprendimento ma non sono essi stessi parametri apprendibili, potrebbero essere regolati in relazione alle loro specifiche durante il pre-addestramento: ad esempio, una velocità di apprendimento inferiore (che riduce l'entità di ogni aggiornamento dei pesi del modello) ha meno probabilità di portare a dimenticanze catastrofiche.

Messa a punto efficiente dei parametri (PEFT)

La messa a punto completa, come il processo di pre-addestramento a cui assomiglia, è molto impegnativa dal punto di vista computazionale. Per gli attuali modelli di deep learning con centinaia di milioni o addirittura molti miliardi di parametri, è spesso proibitivamente costoso e poco pratico.

Il Parameter Efficient Fine-Tuning (PEFT) comprende una serie di metodi per ridurre il numero di parametri addestrabili che devono essere aggiornati per adattare efficacemente un modello pre-addestrato di grandi dimensioni per specifiche applicazioni a valle. In tal modo, il PEFT riduce in modo significativo le risorse computazionali e la memoria necessarie per produrre un modello messo a punto efficacemente. I metodi PEFT si sono spesso dimostrati più stabili dei metodi di messa a punto completa, in particolare per i casi d'uso di NLP.³

Messa a punto parziale
chiamata anche messa a punto parziale, i metodi di messa a punto parziale mirano a ridurre le richieste computazionali aggiornando solo il sottoinsieme selezionato di parametri pre-addestrati più critici per le prestazioni del modello nelle attività a valle pertinenti. I restanti parametri vengono "congelati", assicurando così che non verranno modificati.

L'approccio di messa a punto parziale più intuitivo consiste nell'aggiornare solo gli strati esterni della rete neurale. Nella maggior parte delle architetture di modelli, gli strati interni del modello (più vicini al livello di input) catturano solo funzioni ampie e generiche: ad esempio, in una CNN utilizzata per la classificazione delle immagini, i primi livelli in genere distinguono edge e texture; ogni livello successivo individua caratteristiche progressivamente più fini fino a quando la classificazione finale non viene prevista nello strato più esterno. In generale, più il nuovo compito (per il quale il modello viene messo a punto) è simile al compito originale, più utili saranno i pesi pre-addestrati dei livelli interni già per questa nuova attività correlata (e quindi devono essere aggiornati meno livelli).

Altri metodi di messa a punto parziale, tra cui l'aggiornamento solo dei termini di distorsione a livello di livello del modello (anziché i pesi specifici del nodo)⁴ e metodi di messa a punto "sparsi" che aggiornano solo un sottoinsieme selezionato di pesi complessivi in tutto il modello.⁵

Messa a punto additiva
invece di mettere a punto i parametri esistenti di un modello pre-addestrato, i metodi additivi aggiungono parametri o strati aggiuntivi al modello, bloccano i pesi pre-addestrati esistenti e addestrano solo i nuovi componenti. Questo approccio aiuta a mantenere la stabilità del modello garantendo che i pesi pre-addestrati originali rimangano invariati.

Se da un lato questo può aumentare il tempo di addestramento, dall'altro riduce significativamente i requisiti di memoria in quanto ci sono molti meno gradienti e stati di ottimizzazione da memorizzare: secondo Lialin e altri, l'addestramento di tutti i parametri di un modello richiede una quantità di memoria GPU da 12 a 20 volte maggiore rispetto ai soli pesi del modello.⁶ È possibile ottenere ulteriori risparmi di memoria attraverso la quantizzazione dei pesi del modello congelato: una riduzione della precisione utilizzata per rappresentare i parametri del modello, concettualmente simile alla riduzione del bitrate di un file audio.

Una sottobranca dei metodi additivi è la messa a punto dei prompt. Concettualmente, è simile al prompt engineering, che si riferisce alla personalizzazione degli "hard prompt", ossia ai prompt scritti da un essere umano in linguaggio naturale, per guidare il modello verso l'output desiderato, ad esempio specificando un determinato tono o fornendo esempi che facilitano il few-shot learning. La messa a punto introduce i soft prompt creati dall'AI: incorporamenti vettoriali apprendibili concatenati all'hard prompt dell'utente. Anziché ripetere l'addestramento del modello, la messa a punto del prompt comporta il blocco dei pesi del modello e l'addestramento del soft prompt stesso. La messa a punto rapida ed efficiente dei prompt consente ai modelli di passare più facilmente da un'attività all'altra, anche se con un compromesso in termini di interpretabilità.
 

Adattatori
un altro sottoinsieme di messa a punto additiva inietta i moduli adattatori, ovvero nuovi livelli specifici per l'attività aggiunti alla rete neurale e addestra questi moduli adattatori invece di mettere a punto i pesi del modello pre-addestrati (che sono congelati). Secondo il documento originale, che ha misurato i risultati sul modello di linguaggio mascherato BERT, gli adattatori hanno riportato prestazioni equivalenti a quelle di una messa a punto completa, addestrando solo il 3,6% dei parametri.⁷

Riparametrizzazione
i metodi basati sulla riparametrizzazione, come il Low Rank Adaptation (LoRA), sfruttano la trasformazione a basso rango di matrici ad alta dimensionalità (come la matrice massiccia di pesi del modello pre-addestrati in un modello trasformatore). Queste rappresentazioni di basso rango omettono le informazioni dimensionali superiori irrilevanti per acquisire la struttura sottostante a bassa dimensionalità dei pesi del modello, riducendo notevolmente il numero di parametri addestrabili. Ciò accelera considerevolmente la messa a punto e riduce la memoria necessaria per memorizzare gli aggiornamenti del modello.

LoRA evita l'ottimizzazione diretta della matrice dei pesi del modello e ottimizza invece una matrice di aggiornamenti sui pesi del modello (o pesi delta), che viene inserita nel modello. Questa matrice di aggiornamenti dei pesi viene a sua volta rappresentata come due matrici più piccole (cioè di rango inferiore), riducendo notevolmente il numero di parametri da aggiornare il che, a sua volta, accelera notevolmente la messa a punto e riduce la memoria necessaria per memorizzare gli aggiornamenti del modello. I pesi del modello pre-addestrato rimangono congelati.

Un ulteriore vantaggio del LoRA è che, poiché ciò che viene ottimizzato e memorizzato non sono i nuovi pesi del modello ma piuttosto la differenza (o delta) tra i pesi pre-addestrati originali e i pesi messi a punto, è possibile "scambiare" diversi LoRA specifici per l'attività, a seconda delle necessità, per adattare il modello pre-addestrato (i cui parametri effettivi rimangono invariati) a un determinato caso d'uso.

È stata sviluppata una varietà di derivati LoRA, come QLoRA, che riducono ulteriormente la complessità computazionale quantificando il modello di trasformatore prima di LoRA.

Messa a punto di modelli linguistici di grandi dimensioni

La messa a punto è una parte fondamentale del ciclo di sviluppo LLM, che consente di adattare le funzionalità linguistiche non elaborate dei foundation model per una varietà di casi d'uso, dai chatbot alla codifica, fino ad altri domini sia creativi sia tecnici.

Gli LLM sono pre-addestrati utilizzando l'apprendimento auto-supervisionato su un enorme corpus di dati non etichettati. I modelli linguistici autoregressivi, come i modelli GPT di OpenAI, Gemini di Google o Llama di Meta, sono addestrati a prevedere semplicemente le parole successive in una sequenza fino al completamento. Nel pre-addestramento, ai modelli viene fornito l'inizio di una frase di esempio tratta dai dati di addestramento e ripetutamente incaricata di prevedere la parola successiva nella sequenza fino alla fine del campione. Per ogni previsione, la parola successiva della frase campione originale ha funzione di verità fondamentale.

Sebbene questo pre-addestramento produca potenti funzionalità di generazione di testo, non fornisce alcuna comprensione effettiva dell'intento di un utente. A livello fondamentale, gli LLM autoregressivi in realtà non rispondono a un prompt ma aggiungono solo del testo. Senza una guida molto specifica sotto forma di prompt engineering, un LLM pre-addestrato (che non è stato messo a punto) prevede semplicemente, in modo grammaticalmente coerente, quali potrebbero essere le parole successive in una determinata sequenza iniziata dal prompt. Se ti viene richiesto di "inviarmi come fare un CV", un LLM potrebbe rispondere "utilizzando Microsoft Word." È un modo valido per completare la frase, ma non è allineato con l'obiettivo dell'utente. Il modello potrebbe già avere una conoscenza sostanziale della scrittura di un curriculum ricavata dai contenuti pertinenti inclusi nel suo corpus di pre-addestramento, ma senza una messa a punto di questa conoscenza potrebbe non essere possibile accedervi.

Il processo di messa a punto svolge quindi un ruolo fondamentale non solo nella personalizzazione dei foundation model per il tono e i casi d'uso unici della tua azienda, ma anche nel renderli del tutto adatti all'uso pratico.

Ottimizzazione delle istruzioni

L'ottimizzazione delle istruzioni è un sottoinsieme della messa a punto supervisionata (Supervised Fine-Tuning, SFT), spesso utilizzato per mettere a punto gli LLM per l'utilizzo dei chatbot, che induce l'LLM a generare risposte che rispondono più direttamente alle esigenze degli utenti: in altre parole, a seguire meglio le istruzioni. Gli esempi etichettati, che seguono il formato (prompt, risposta), in cui gli esempi di prompt comprendono attività orientate alle istruzioni, come "tradurre la frase seguente dall'inglese allo spagnolo" oppure "classificare la frase successiva come Positiva o Negativa", dimostrano come rispondere a prompt che rappresentano una varietà di casi d'uso, come la risposta alle domande, il riassunto o la traduzione. Nell'aggiornamento dei pesi del modello per ridurre al minimo la perdita tra gli output del modello e i campioni etichettati, l'LLM impara ad aggiungere testo ai prompt in modo più utile e in generale a seguire meglio le istruzioni.

Continuando l'esempio precedente di prompt "insegnami come scrivere un CV", il set di dati utilizzato per l'SFT potrebbe contenere un certo numero di coppie (prompt, risposta) che dimostrano che il modo desiderato di rispondere ai prompt che iniziano con "insegnami come" è fornire suggerimenti passo passo, piuttosto che completare semplicemente la frase.

Apprendimento per rinforzo da feedback umano (RLHF)

Mentre la messa a punto delle istruzioni può insegnare al modello comportamenti tangibili e diretti come strutturare le sue risposte, può essere proibitivamente laborioso e difficile insegnare qualità umane astratte come la disponibilità, l'accuratezza dei fatti, l'umorismo o l'empatia attraverso esempi etichettati.

Per allineare meglio i risultati dei modelli con il comportamento umano ideale, specialmente per i casi d'uso conversazionale come i chatbot, la SFT può essere integrata con l'apprendimento per rinforzo, in particolare, l'apprendimento per rinforzo da feedback umano (RLHF). L'RLHF, chiamato anche apprendimento per rinforzo da preferenze umane, aiuta a mettere a punto i modelli per qualità complesse, mal definite o difficili da specificare attraverso esempi discreti.

Consideriamo la comicità: insegnare a un modello a essere "divertente" con la SFT non solo richiede costi e impegno nello scrivere (o acquisire) un numero sufficiente di barzellette per costituire un modello apprendibile, ma richiede anche che ciò che un determinato data scientist ritiene divertente sia in linea con ciò che la base di utenti troverebbe divertente. RLHF fornisce fondamentalmente un'alternativa matematicamente basata sul crowdsourcing: spingere l'LLM a generare battute e chiedere a tester umani di valutarne la qualità. Queste valutazioni possono essere utilizzate per addestrare un modello di ricompensa per prevedere i tipi di barzellette che riceveranno un feedback positivo e, a sua volta, quel modello di ricompensa può essere utilizzato per addestrare l'LLM attraverso l'apprendimento per rinforzo. 

Più in pratica, RLHF mira ad affrontare le sfide esistenziali dei LLM, come le allucinazioni, che riflettono i pregiudizi sociali intrinseci nei dati di addestramento o che affrontano input di utenti maleducati o antagonisti.

Casi d'uso comuni per la messa a punto

La messa a punto può essere utilizzata per un'ampia gamma di scopi, dalla personalizzazione all'integrazione delle conoscenze di base del modello, fino all'estensione del modello ad attività e domini completamente nuovi.

Personalizzazione dello stile: i modelli possono essere messi a punto per riflettere il tono desiderato dal marchio, dall'implementazione di modelli comportamentali complessi e stili di illustrazione idiosincratici a semplici modifiche come iniziare ogni scambio con un saluto educato.
Specializzazione: le abilità linguistiche generali degli LLM possono essere affinate per compiti specifici. Ad esempio, i modelli Llama 2 di Meta sono stati rilasciati come foundation model di base, varianti ottimizzate per chatbot (Llama-2-chat) e varianti ottimizzate per codice (Code Llama).
Aggiungere conoscenze specifiche del dominio: sebbene gli LLM siano pre-addestrati su un massiccio volume di dati, non sono omogenei. L'utilizzo di campioni di formazione aggiuntivi per integrare la conoscenza del modello di base è particolarmente pertinente in contesti legali, finanziari o medici, che in genere comportano l'utilizzo di vocaboli specializzati ed esoterici che potrebbero non essere stati sufficientemente rappresentati nel pre-addestramento.
Few-shot learning: i modelli che dispongono già di una solida conoscenza generalizzata spesso possono essere messi a punto per testi di classificazione più specifici utilizzando relativamente pochi esempi dimostrativi.
Risoluzione dei casi limite: potresti volere che il tuo modello gestisca determinate situazioni che è improbabile che siano state trattate nel pre-addestramento in un modo specifico. Mettere a punto un modello su esempi etichettati di tali situazioni è un modo efficace per garantire che siano gestite in modo appropriato.
Incorporazione di dati proprietari: la tua azienda potrebbe disporre di una propria pipeline di dati proprietaria, molto pertinente al tuo caso d'uso specifico. La messa a punto consente di incorporare questa conoscenza nel modello senza doverlo addestrare da zero.

Soluzioni correlate

IBM watsonx.ai™

Addestra, convalida, adatta e distribuisci AI generativa, foundation model e funzionalità di machine learning con facilità e crea applicazioni AI in un tempo brevissimo con pochissimi dati.

Esplora watsonx.ai

Foundation model in watsonx.ai

Lo studio Watsonx AI offre una libreria di foundation model convenienti e di livello aziendale sviluppati da IBM, modelli open source e modelli provenienti da fornitori di terze parti per aiutare clienti e partner a ridimensionare e rendere operativa rapidamente l'AI generativa con un rischio minimo.

Esplora la libreria IBM di foundation model

Messa a punto delle risorse

Avvio rapido: ottimizzare un foundation model

Scopri come, perché e quando ottimizzare un foundation model in watsonx.ai con questa serie di tutorial e guide video.

Sviluppo di soluzioni di AI generativa con foundation model

Esplora e convalida i casi d'uso con foundation model per automatizzare, semplificare e accelerare i processi esistenti o fornire valore in un modo nuovo.

Che cos'è lo zero-shot learning?

Scopri di più sullo zero-shot learning (ZSL), uno scenario di machine learning in cui un modello AI viene addestrato a riconoscere e classificare oggetti o concetti senza aver visto alcun esempio in precedenza e su come i modelli possono essere messi a punto per migliori prestazioni zero-shot.

Fasi successive

Addestra, convalida, metti a punto e implementa le funzionalità dell'AI generativa, dei modelli di fondazione e dell'apprendimento automatico grazie a IBM watsonx.ai, una suite di nuova generazione per i creatori di AI. Crea applicazioni AI in una frazione del tempo con una frazione dei dati.

Esplora watsonx.ai

Prenota una demo live

Note a piè di pagina

^{Tutti i link sono esterni a ibm.com}
¹ "Big Self-Supervised Models are Strong Semi-Supervised Learners," arXiv, 26 ottobre 2020
² "CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of Pre-trained Language Models," arXiv, 2 marzo 2021
³ "On the Effectiveness of Parameter-Efficient Fine-Tuning," arXiv, 28 novembre 2022
⁴ "BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models," arXiv, 18 June 2021 (ultimo aggiornamento 5 settembre 2022)
⁵ "Scaling Sparse Fine-Tuning to Large Language Models," arXiv, 2 febbraio 2024
⁶ "Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning," arXiv, 28 marzo 2023
⁷ "Parameter-Efficient Transfer Learning for NLP," arXiv, 13 giugno 2019