Multimodale KI bezieht sich auf maschinelle Lernmodelle, die in der Lage sind, Daten aus mehreren Modalitäten oder Datentypen zu verarbeiten und zu integrieren. Diese Modalitäten können Text, Bilder, Audio, Video und andere Formen sensorischer Eingaben umfassen.
Im Gegensatz zu herkömmlichen KI-Modellen, die normalerweise für die Verarbeitung eines einzigen Datentyps konzipiert sind, kombiniert und analysiert multimodale KI verschiedene Formen von Dateneingaben, um ein umfassenderes Verständnis zu erreichen und robustere Ausgaben zu generieren.
Ein multimodales Modell kann beispielsweise ein Foto einer Landschaft als Eingabe erhalten und eine schriftliche Zusammenfassung der Eigenschaften dieses Ortes erstellen. Oder es könnte eine schriftliche Zusammenfassung einer Landschaft als Eingabe erhalten und ein Bild basierend auf dieser Beschreibung generieren. Diese Fähigkeit, über mehrere Modalitäten hinweg zu arbeiten, verleiht diesen Modellen leistungsstarke Funktionen.
OpenAI startete ChatGPT im November 2022, das die generative KI schnell auf den Plan rief. ChatGPT war eine unimodale KI, die entwickelt wurde, um Texteingaben zu empfangen und Textausgaben mithilfe der Verarbeitung natürlicher Sprache (Natural Language Processing – NLP) zu generieren.
Multimodale KI macht die generative KI robuster und nützlicher, indem sie mehrere Arten von Ein- und Ausgaben ermöglicht. Dall-e zum Beispiel war die erste multimodale Implementierung des GPT-Modells von Open AI, aber GPT-4o führte auch multimodale Funktionen in ChatGPT ein.
Multimodale KI-Modelle können Informationen aus verschiedenen Datenquellen und medienübergreifend kombinieren, um ein umfassenderes und nuancierteres Verständnis der Daten zu ermöglichen. Dadurch kann die KI fundiertere Entscheidungen treffen und genauere Ergebnisse erzielen.
Durch die Nutzung verschiedener Modalitäten können multimodale KI-Systeme eine höhere Genauigkeit und Belastbarkeit bei Aufgaben wie Bilderkennung, Sprachübersetzung und Spracherkennung erreichen. Die Integration verschiedener Datentypen hilft dabei, mehr Kontext zu erfassen und Mehrdeutigkeiten zu reduzieren. Multimodale KI-Systeme sind widerstandsfähiger gegen Rauschen und fehlende Daten. Wenn eine Modalität unzuverlässig oder nicht verfügbar ist, kann sich das System auf andere Modalitäten verlassen, um die Leistung aufrechtzuerhalten.
Multimodale KI verbessert die Interaktion zwischen Mensch und Computer, indem sie natürlichere und intuitivere Schnittstellen für eine bessere Nutzererfahrung ermöglicht. So können virtuelle Assistenten beispielsweise sowohl Sprachbefehle als auch visuelle Hinweise verstehen und darauf reagieren, was die Interaktion reibungsloser und effizienter macht.
Stellen Sie sich einen Chatbot vor, der mit Ihnen über Ihre Brille sprechen und Ihnen auf Grundlage eines Fotos, das Sie mit ihm teilen, Größenempfehlungen geben kann, oder eine Vogelidentifizierungs-App, die Bilder eines bestimmten Vogels erkennen und seine Identifizierung bestätigen kann, indem sie sich einen Audioclip seines Gesangs „anhört“. KI, die über mehrere sensorische Dimensionen hinweg arbeiten kann, kann den Nutzern aussagekräftigere Ergebnisse und mehr Möglichkeiten zur Interaktion mit Daten bieten.
Künstliche Intelligenz ist ein sich schnell entwickelndes Gebiet, in dem in der multimodalen Forschung die neuesten Fortschritte beim Trainieren von Algorithmen zur Erstellung von Foundation Models angewendet werden. In dieser Disziplin gab es bereits multimodale Innovationen wie audiovisuelle Spracherkennung und die Indizierung von Multimedia-Inhalten, die sich entwickelt hatten, bevor Fortschritte in den Bereichen Deep Learning und Data Science den Weg für die generative KI ebneten.
Heute wird multimodale KI in der Praxis in allen möglichen Anwendungsfällen eingesetzt, von der Analyse medizinischer Bilder im Gesundheitswesen bis hin zur Verwendung von Computer Vision zusammen mit anderen sensorischen Eingaben in KI-gestützten autonomen Fahrzeugen.
Ein Artikel von Carnegie Mellon aus dem Jahr 2022 beschreibt drei Merkmale multimodaler KI: Heterogenität, Verbindungen und Interaktionen.1 Heterogenität bezieht sich auf die unterschiedlichen Eigenschaften, Strukturen und Repräsentationen von Modalitäten. Eine Textbeschreibung einer Veranstaltung unterscheidet sich in Qualität, Struktur und Repräsentation grundlegend von einer Fotografie derselben Veranstaltung.
Verbindungen bezieht sich auf die komplementären Informationen, die zwischen verschiedenen Modalitäten ausgetauscht werden. Diese Verbindungen können sich in statistischen Ähnlichkeiten oder in semantischen Entsprechungen widerspiegeln. Interaktionen schließlich beziehen sich darauf, wie die verschiedenen Modalitäten zusammenwirken, wenn sie zusammengebracht werden.
Die größte technische Herausforderung für multimodale KI besteht darin, verschiedene Arten von Daten effektiv zu integrieren und zu verarbeiten, um Modelle zu erstellen, die die Stärken der einzelnen Modalitäten nutzen und gleichzeitig ihre individuellen Grenzen überwinden können. Die Autoren des Artikels nannten auch verschiedene Herausforderungen: Darstellung, Ausrichtung, Argumentation, Generierung, Transfer und Quantifizierung.
Darstellung bezieht sich darauf, wie multimodale Daten dargestellt und zusammengefasst werden können, um die Heterogenität und die Verbindungen zwischen den Modalitäten widerzuspiegeln. In der Praxis werden spezialisierte neuronale Netze (z. B. CNNs für Bilder, Transformer für Text) eingesetzt, um Merkmale zu extrahieren, sowie gemeinsame Einbettungsräume oder Aufmerksamkeitsmechanismen für das Repräsentationslernen verwendet.
Ausrichtung zielt darauf ab, Verbindungen und Wechselwirkungen zwischen den Elementen zu erkennen. Fachleute verwenden zum Beispiel Techniken für die zeitliche Ausrichtung von Video- und Audiodaten und die räumliche Ausrichtung von Bildern und Text.
Argumentation zielt darauf ab, Wissen aus multimodaler Evidenz zusammenzustellen, in der Regel durch mehrere Inferenzschritte.
Bei der Generierung geht es darum, einen generativen Prozess zu erlernen, um Rohmodalitäten zu erzeugen, die modalitätsübergreifende Interaktionen, Struktur und Kohärenz widerspiegeln.
Transfer zielt auf den Wissenstransfer zwischen den Modalitäten ab. Fortschrittliche Transfer-Lerntechniken und gemeinsame Einbettungsräume ermöglichen den Transfer von Wissen über Modalitäten hinweg.
Quantifizierung umfasst empirische und theoretische Studien zum Verständnis des multimodalen Lernens, um ihre Leistung innerhalb multimodaler Modelle besser bewerten zu können.
Multimodale Modelle fügen großen Sprachmodellen (LLMs), die auf Transformern basieren, die ihrerseits auf einer Encoder-Decoder-Architektur mit einem Aufmerksamkeitsmechanismus zur effizienten Verarbeitung von Daten basieren, eine Komplexitätsebene hinzu. Multimodale KI nutzt Datenfusionstechniken, um verschiedene Modalitäten zu integrieren. Diese Fusion kann als früh (wenn Modalitäten in das Modell kodiert werden, um einen gemeinsamen Darstellungsraum zu schaffen), mittel (wenn Modalitäten in verschiedenen Vorverarbeitungsstadien kombiniert werden) und spät (wenn mehrere Modelle unterschiedliche Modalitäten verarbeiten und die Ausgaben kombinieren) beschrieben werden.
Multimodale KI ist ein sich schnell entwickelndes Gebiet, in dem mehrere wichtige Trends ihre Entwicklung und Anwendung prägen. Hier sind einige der bemerkenswerten Trends:
GPT-4 V(ision) von OpenAI, Gemini von Google und andere Unified Models sind darauf ausgelegt, Text, Bilder und andere Datentypen innerhalb einer einzigen Architektur zu verarbeiten. Diese Modelle können multimodale Inhalte nahtlos verstehen und generieren.
Moderne Aufmerksamkeitsmechanismen und Transformer werden eingesetzt, um Daten aus verschiedenen Formaten besser abzustimmen und zu verschmelzen, was zu kohärenteren und kontextbezogenen Ergebnissen führt.
Anwendungen im Bereich autonomes Fahren und Augmented Reality beispielsweise erfordern, dass die KI Daten von verschiedenen Sensoren (Kameras, LIDAR usw.) in Echtzeit verarbeitet und integriert werden, um sofortige Entscheidungen zu treffen.
Forscher generieren synthetische Daten, die verschiedene Modalitäten (z. B. Textbeschreibungen mit entsprechenden Bildern) kombinieren, um Trainingsdatensätze zu erweitern und die Modellleistung zu verbessern.
Initiativen wie Hugging Face und Google AI stellen Open Source KI-Tools zur Verfügung, die ein kollaboratives Umfeld für Forscher und Entwickler fördern, um das Fachgebiet voranzubringen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
1 https://arxiv.org/abs/2209.03430, 7. September 2022.