My IBM

Accedi

Che cos'è l'AI multimodale?

15 luglio 2024

Autori

Cole Stryker

Editorial Lead, AI Models

Gather

Che cos'è l'AI multimodale?

Con AI multimodale ci si riferisce a modelli di machine learning in grado di elaborare e integrare informazioni provenienti da più modalità o tipi di dati, che possono includere testo, immagini, audio, video e altre forme di input sensoriale.

A differenza dei modelli AI tradizionali, generalmente progettati per gestire un singolo tipo di dati, l'AI multimodale combina e analizza diverse forme di input di dati per ottenere una comprensione più completa e generare output più solidi.

Ad esempio, un modello multimodale può ricevere una foto di un paesaggio come input e generare un riassunto scritto delle caratteristiche di quel luogo, oppure ricevere un riepilogo scritto di un paesaggio e generare un'immagine basata su quella descrizione. Questa capacità di lavorare su più modalità offre a questi modelli potenti funzionalità.

OpenAI ha lanciato ChatGPT nel novembre 2022, dando velocemente risalto all'AI generativa. ChatGPT era un'AI unimodale, progettata per ricevere input di testo e generare output di testo utilizzando l'elaborazione del linguaggio naturale (NLP).

L'AI multimodale rende la gen AI più robusta e utile, consentendo più tipi di input e output. Dall-e, ad esempio, è stata l'implementazione multimodale iniziale di Open AI per il suo modello GPT, ma GPT-4o ha introdotto le funzionalità multimodali anche in ChatGPT.

I modelli AI multimodali possono combinare informazioni provenienti da varie fonti di dati e da media diversi per fornire una comprensione più completa e sfumata dei dati. Ciò consente all'AI di prendere decisioni più informate e di generare risultati più accurati.

Sfruttando diverse modalità, i sistemi di AI multimodale possono raggiungere una maggiore precisione e robustezza in attività come il riconoscimento delle immagini, la traduzione linguistica e il riconoscimento vocale. L'integrazione di diversi tipi di dati aiuta ad acquisire più contesto e a ridurre le ambiguità. I sistemi di AI multimodale sono più resistenti al rumore e ai dati mancanti. Se una modalità non è affidabile o non è disponibile, il sistema può fare affidamento su altre modalità per mantenere le prestazioni.

L'AI multimodale migliora l'interazione uomo-computer, consentendo interfacce più naturali e intuitive per una migliore esperienza dell'utente. Ad esempio, gli assistenti virtuali possono comprendere e rispondere sia ai comandi vocali che ai segnali visivi, rendendo le interazioni più fluide ed efficienti.

Immagina un chatbot che può parlarti dei tuoi occhiali e darti consigli sulle misure in base a una foto che condividi, oppure un'app per l'identificazione degli uccelli che può riconoscere le immagini di un particolare uccello e confermarne l'identificazione "ascoltando" una clip audio del suo canto. Un'AI in grado di operare su più piani sensoriali può offrire agli utenti risultati più significativi e più modi di interagire con i dati.

Le ultime notizie e insight sull'AI  

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Iscriviti oggi

Come funziona l'AI multimodale

L'intelligenza artificiale è un campo in rapida evoluzione in cui i progressi più recenti nell'addestramento di algoritmi per costruire foundation model vengono applicati alla ricerca multimodale. Questa disciplina ha visto precedenti innovazioni multimodali come il riconoscimento vocale audiovisivo e l'indicizzazione dei contenuti multimediali, sviluppate prima che i progressi nel deep learning e nella data science aprissero la strada alla gen AI.

I professionisti utilizzano attualmente l'AI multimodale in tutti i tipi di casi d'uso, dall'analisi delle immagini mediche in ambito sanitario all'utilizzo della computer vision, oltre ad altri input sensoriali nei veicoli autonomi con tecnologia AI.

Un articolo del 2022 di Carnegie Mellon descrive tre caratteristiche dell'AI multimodale: eterogeneità, connessioni e interazioni.¹ Con eterogeneità ci si riferisce alle diverse qualità, strutture e rappresentazioni delle modalità. Una descrizione testuale di un evento sarà fondamentalmente diversa per qualità, struttura e rappresentazione rispetto a una fotografia dello stesso evento.

Le connessioni si riferiscono alle informazioni complementari condivise tra le diverse modalità, e possono riflettersi in somiglianze statistiche o in corrispondenze semantiche. Infine, le interazioni si riferiscono al modo in cui le diverse modalità interagiscono quando vengono accorpate.

La sfida ingegneristica principale per l'AI multimodale sta nell'integrare ed elaborare in modo efficace diversi tipi di dati per creare modelli in grado di sfruttare i punti di forza di ciascuna modalità, superandone i limiti individuali. Gli autori dell'articolo pongono anche diverse sfide: rappresentazione, allineamento, ragionamento, generazione, trasferimento e quantificazione.

La rappresentazione è il modo di rappresentare e riassumere i dati multimodali per riflettere l'eterogeneità e le interconnessioni tra le modalità. I professionisti utilizzano reti neurali specializzate (ad esempio, CNN per immagini, trasformatori per testo) per estrarre funzioni e impiegano spazi di incorporamento congiunti o meccanismi di attenzione per il representation learning.
L'allineamento mira a identificare le connessioni e le interazioni tra gli elementi. Ad esempio, gli ingegneri utilizzano tecniche per l'allineamento temporale nei dati video e audio e l'allineamento spaziale per le immagini e il testo.
Il ragionamento mira a comporre la conoscenza a partire da prove multimodali, di solito attraverso più fasi inferenziali di inferenza.
La generazione implica l'apprendimento di un processo generativo per produrre modalità grezze che riflettano interazioni, struttura e coerenza intermodali.
Il trasferimento mira a trasferire le conoscenze tra le modalità. Le tecniche avanzate di transfer learning e gli spazi di incorporamento condivisi consentono il trasferimento delle conoscenze tra diverse modalità.
La quantificazione prevede studi empirici e teorici per comprendere l'apprendimento multimodale e valutare meglio le loro prestazioni all'interno dei modelli multimodali.

I modelli multimodali aggiungono un ulteriore livello di complessità ai modelli linguistici di grandi dimensioni (LLM), che si basano su trasformatori, a loro volta costruiti su un'architettura encoder-decoder con un meccanismo di attenzione per elaborare i dati in modo efficiente. L'AI multimodale utilizza tecniche di fusione dei dati per integrare diverse modalità. Questa fusione può essere descritta come precoce (quando le modalità vengono codificate nel modello per creare uno spazio di rappresentazione comune), intermedia (quando le modalità vengono combinate in diverse fasi di pre-elaborazione) e tardiva (quando più modelli elaborano diverse modalità e combinano gli output).

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda gli episodi

Tendenze nell'AI multimodale

L'AI multimodale è un campo in rapida evoluzione, con diverse tendenze chiave che ne plasmano lo sviluppo e l'applicazione. Ecco alcune delle più degne di nota:

Modelli unificati

GPT-4 V(ision) di OpenAI, Gemini di Google e altri modelli unificati sono progettati per gestire testo, immagini e altri tipi di dati all'interno di un'unica architettura, e sono in grado di comprendere e generare contenuti multimodali senza soluzione di continuità.

Interazione intermodale migliorata

Per allineare e fondere meglio i dati provenienti da diversi formati vengono utilizzati meccanismi di attenzione e trasformatori avanzati, portando a risultati più coerenti e contestualmente accurati.

Elaborazione multimodale in tempo reale

Le applicazioni nella guida autonoma e nella realtà aumentata, ad esempio, hanno bisogno dell'AI per elaborare e integrare in tempo reale i dati provenienti da vari sensori (telecamere, LIDAR e altro) per prendere decisioni istantanee.

Data augmentation in tempo reale

I ricercatori stanno generando dati sintetici che combinano varie modalità (ad esempio, descrizioni di testo con immagini corrispondenti) per aumentare i set di dati di addestramento e migliorare le prestazioni dei modelli.

Open source e collaborazione

Iniziative come Hugging Face e Google AI forniscono strumenti di AI open source, promuovendo un ambiente collaborativo in cui ricercatori e sviluppatori possono avanzare nel campo.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l’AI generativa e il machine learning nella tua azienda.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Risorse

Migliora le tue competenze nel ML

Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l’AI generativa e il machine learning nella tua azienda.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell’AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d’uso.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

Come prosperare in questa nuova era dell'AI in tutta fiducia e sicurezza

Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l’AI attraverso l’azienda e promuovere un’AI affidabile.

Report AI in Action

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live

Note a piè di pagina

¹ https://arxiv.org/abs/2209.03430, 7 settembre 2022.