Home

Think

Argomenti

AI multimodale

Che cos'è l'AI multimodale?
Esplora IBM watsonx.ai Esplora il modello IBM Granite
Collage di pittogrammi con nuvole, diagrammi a torta e grafici

Data di pubblicazione: 15 luglio 2024
Autore: Cole Stryker

Che cos'è l'AI multimodale?

Con AI multimodale ci si riferisce a modelli di machine learning in grado di elaborare e integrare informazioni provenienti da più modalità o tipi di dati, che possono includere testo, immagini, audio, video e altre forme di input sensoriale.

A differenza dei modelli AI tradizionali, generalmente progettati per gestire un singolo tipo di dati, l'AI multimodale combina e analizza diverse forme di input di dati per ottenere una comprensione più completa e generare output più solidi.

Ad esempio, un modello multimodale può ricevere una foto di un paesaggio come input e generare un riassunto scritto delle caratteristiche di quel luogo, oppure ricevere un riepilogo scritto di un paesaggio e generare un'immagine basata su quella descrizione. Questa capacità di lavorare su più modalità offre a questi modelli potenti funzionalità.

OpenAI ha lanciato ChatGPT nel novembre 2022, che ha rapidamente messo l'AI generativa sul tavolo. ChatGPT era un'AI unimodale, progettata per ricevere input di testo e generare output di testo utilizzando l'elaborazione del linguaggio naturale (NLP).

L'AI multimodale rende la gen AI più robusta e utile, consentendo più tipi di input e output. Dall-e, ad esempio, è stata l'implementazione multimodale iniziale di Open AI per il suo modello GPT, ma GPT-4o ha introdotto le funzionalità multimodali anche in ChatGPT.

I modelli AI multimodali possono combinare informazioni provenienti da varie fonti di dati e da media diversi per fornire una comprensione più completa e sfumata dei dati. Ciò consente all'AI di prendere decisioni più informate e di generare risultati più accurati.

Sfruttando diverse modalità, i sistemi di AI multimodale possono raggiungere una maggiore precisione e robustezza in attività come il riconoscimento delle immagini, la traduzione linguistica e il riconoscimento vocale. L'integrazione di diversi tipi di dati aiuta ad acquisire più contesto e a ridurre le ambiguità. I sistemi di AI multimodale sono più resistenti al rumore e ai dati mancanti. Se una modalità non è affidabile o non è disponibile, il sistema può fare affidamento su altre modalità per mantenere le prestazioni.

L'AI multimodale migliora l'interazione uomo-computer, consentendo interfacce più naturali e intuitive per una migliore esperienza dell'utente. Ad esempio, gli assistenti virtuali possono comprendere e rispondere sia ai comandi vocali che ai segnali visivi, rendendo le interazioni più fluide ed efficienti.

Immagina un chatbot che può parlarti dei tuoi occhiali e darti consigli sulle misure in base a una foto che condividi, oppure un'app per l'identificazione degli uccelli che può riconoscere le immagini di un particolare uccello e confermarne l'identificazione "ascoltando" una clip audio del suo canto. Un'AI in grado di operare su più piani sensoriali può offrire agli utenti risultati più significativi e più modi di interagire con i dati.

AI generativa e apprendimento automatico (ML) per le imprese

Scopri la potenza dell'integrazione di una strategia data lakehouse nella tua architettura dei dati, compresi i miglioramenti per scalare l'AI e le opportunità di ottimizzazione dei costi.

Contenuti correlati Podcast Mixture of Experts: Il nostro futuro multimodale Insight di AI generativa
Come funziona l'AI multimodale

L'intelligenza artificiale è un campo in rapida evoluzione in cui i progressi più recenti nella formazione di algoritmi per costruire foundation model vengono applicati alla ricerca multimodale. Questa disciplina ha visto precedenti innovazioni multimodali come il riconoscimento vocale audiovisivo e l'indicizzazione dei contenuti multimediali, sviluppate prima che i progressi nel deep learning e nella data science aprissero la strada alla gen AI.

Oggi, i professionisti utilizzano l'AI multimodale in tutti i tipi di casi d'uso, dall'analisi delle immagini mediche in ambito sanitario all'utilizzo della computer vision, oltre ad altri input sensoriali nei veicoli autonomi alimentati dall'AI.

Un articolo del 2022 di Carnegie Mellon descrive tre caratteristiche dell'AI multimodale: eterogeneità, connessioni e interazioni.1 Con eterogeneità ci si riferisce alle diverse qualità, strutture e rappresentazioni delle modalità. Una descrizione testuale di un evento sarà fondamentalmente diversa per qualità, struttura e rappresentazione rispetto a una fotografia dello stesso evento.

Le connessioni si riferiscono alle informazioni complementari condivise tra le diverse modalità, e possono riflettersi in somiglianze statistiche o in corrispondenze semantiche. Infine, le interazioni si riferiscono al modo in cui le diverse modalità interagiscono quando vengono accorpate.

La sfida ingegneristica principale per l'AI multimodale sta nell'integrare ed elaborare in modo efficace diversi tipi di dati per creare modelli in grado di sfruttare i punti di forza di ciascuna modalità, superandone i limiti individuali. Gli autori dell'articolo pongono anche diverse sfide: rappresentazione, allineamento, ragionamento, generazione, trasferimento e quantificazione.

  • La rappresentazione è il modo di rappresentare e riassumere i dati multimodali per riflettere l'eterogeneità e le interconnessioni tra le modalità. I professionisti utilizzano reti neurali specializzate (ad esempio, CNN per immagini, trasformatori per testo) per estrarre funzioni e impiegano spazi di incorporamento congiunti o meccanismi di attenzione per il representation learning.

  • L'allineamento mira a identificare le connessioni e le interazioni tra gli elementi. Ad esempio, gli ingegneri utilizzano tecniche per l'allineamento temporale nei dati video e audio e l'allineamento spaziale per le immagini e il testo.

  • Il ragionamento mira a comporre la conoscenza a partire da prove multimodali, di solito attraverso più fasi inferenziali di inferenza.

  • La generazione implica l'apprendimento di un processo generativo per produrre modalità grezze che riflettano interazioni, struttura e coerenza intermodali.

  • Il trasferimento mira a trasferire le conoscenze tra le modalità. Le tecniche avanzate di transfer learning e gli spazi di incorporamento condivisi consentono il trasferimento delle conoscenze tra diverse modalità.

  • La quantificazione prevede studi empirici e teorici per comprendere l'apprendimento multimodale e valutare meglio le loro prestazioni all'interno dei modelli multimodali.

    I modelli multimodali aggiungono un ulteriore livello di complessità ai modelli linguistici di grandi dimensioni (LLM), che si basano su trasformatori, a loro volta costruiti su un'architettura encoder-decoder con un meccanismo di attenzione per elaborare i dati in modo efficiente. L'AI multimodale utilizza tecniche di fusione dei dati per integrare diverse modalità. Questa fusione può essere descritta come precoce (quando le modalità vengono codificate nel modello per creare uno spazio di rappresentazione comune), intermedia (quando le modalità vengono combinate in diverse fasi di pre-elaborazione) e tardiva (quando più modelli elaborano diverse modalità e combinano gli output).

Tendenze nell'AI multimodale

L'AI multimodale è un campo in rapida evoluzione, con diverse tendenze chiave che ne plasmano lo sviluppo e l'applicazione. Ecco alcune delle più degne di nota:

Modelli unificati

GPT-4 V(ision) di OpenAI, Gemini di Google e altri modelli unificati sono progettati per gestire testo, immagini e altri tipi di dati all'interno di un'unica architettura, e sono in grado di comprendere e generare contenuti multimodali senza soluzione di continuità.

Interazione intermodale migliorata

Per allineare e fondere meglio i dati provenienti da diversi formati vengono utilizzati meccanismi di attenzione e trasformatori avanzati, portando a risultati più coerenti e contestualmente accurati.

Elaborazione multimodale in tempo reale

Le applicazioni nella guida autonoma e nella realtà aumentata, ad esempio, hanno bisogno dell'AI per elaborare e integrare in tempo reale i dati provenienti da vari sensori (telecamere, LIDAR e altro) per prendere decisioni istantanee.

Data augmentation in tempo reale

I ricercatori stanno generando dati sintetici che combinano varie modalità (ad esempio, descrizioni di testo con immagini corrispondenti) per aumentare i set di dati di addestramento e migliorare le prestazioni dei modelli.

Open source e collaborazione

Iniziative come Hugging Face e Google AI forniscono strumenti di AI open source, promuovendo un ambiente collaborativo in cui ricercatori e sviluppatori possono avanzare nel campo.

 

Risorse AI multimodale per il settore sanitario e le scienze biologiche

La nostra ricerca include tecniche avanzate di computer vision che consentono di estrarre automaticamente le caratteristiche diagnosticamente rilevanti nelle immagini sanitarie multimodali.

IBM e NASA stanno sviluppando un foundation model di AI per il meteo e il clima

IBM e NASA stanno attualmente sperimentando architetture e tecniche di modello per integrare queste diverse scale spaziali e temporali in un unico modello multimodale.

Machine learning multimodale nella biomedicina clinica e basata su immagini

Questo sondaggio esplora l'attuale panorama del machine learning multimodale, concentrandosi sul suo profondo impatto sull'analisi delle immagini mediche e sui sistemi di supporto alle decisioni cliniche.

IBM Research: intelligenza artificiale

Esplora il nostro hub centralizzato per la ricerca sull'AI, dai principi di base alla ricerca emergente, fino alle questioni più importanti e ai progressi.

IBM crea un'AI generativa su misura per le imprese

Scopri come IBM sviluppa foundation model generativi affidabili, efficienti dal punto di vista energetico e portatili.

Inizia a usare l'intelligenza artificiale

Un corso per principianti: in due ore, imparerai gli elementi di base dell'AI e creerai e testerai il suo primo modello di machine learning usando Python e scikit-learn.

Fai il passo successivo

Addestra, convalida, metti a punto e implementa le funzionalità dell'AI generativa, dei modelli di fondazione e dell'apprendimento automatico grazie a IBM watsonx.ai, una suite di nuova generazione per i creatori di AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

1 https://arxiv.org/abs/2209.03430 (link esterno a ibm.com), 7 settembre 2022.