Ein generatives Modell ist ein maschinelles Lernmodell, das darauf ausgelegt ist, neue Daten zu erstellen, die seinen Trainingsdaten ähnlich sind. Generative KI-Modelle lernen die Muster und Verteilungen der Trainingsdaten und wenden diese Erkenntnisse dann an, um als Reaktion auf neue Eingabe neuartige Inhalte zu generieren.
Die Erstellung von Inhalten ist das, was generative KI-Modelle von anderen Arten der KI unterscheidet. Generative Modelle sind fortschrittliche neuronale Netze, die Struktur des menschlichen Gehirns nachahmen und komplexe Algorithmen für maschinelles Lernen anwenden, um Trainingsdaten zu verarbeiten und neue Ergebnisse zu erzeugen.
Generative KI-Modelle und ihre Entwickler haben den KI-Zeitgeist in den letzten Jahren maßgeblich bestimmt. Generative Modelle machen weiterhin den Großteil der KI-bezogenen Nachrichtenberichterstattung aus und ziehen erhebliche Aufmerksamkeit und Investitionen auf sich.
Bei generativer KI handelt es sich um eine Form von KI, die hochentwickelte Modelle verwendet, um anhand einer Eingabeaufforderung neue Inhalte zu generieren. Das generative Modell ist das Computerprogramm, das Daten und Algorithmen verwendet, um die Praxis der generativen KI zu erleichtern. Zu den Anwendungsfällen der generativen KI gehören die Textzusammenfassung, die Textgenerierung und die Bildgenerierung sowie die 3D-Modellierung und die Erstellung von Audiodateien.
Generative Modelle funktionieren, indem sie Muster und Verteilungen in ihren Trainingsdaten identifizieren und diese Erkenntnisse dann auf die Generierung neuer Daten auf der Grundlage von Benutzereingaben anwenden. Durch den Trainingsprozess lernt das Modell, die gemeinsamen Wahrscheinlichkeitsverteilungen von Merkmalen im Trainingsdatensatz zu erkennen. Anschließend greift das Modell auf das Gelernte zurück, um neue Datenmuster zu erstellen, die seinen Trainingsdaten ähneln.
Generative Modelle werden in der Regel mit Techniken des unbeaufsichtigten Lernens trainiert: wenn sie mit einer Menge unbeschrifteter Daten gefüttert werden und sie selbst sortieren. Die Modelle ermitteln die Verteilung der Daten und entwickeln so die interne Logik, die sie anschließend zur Erstellung neuer Daten verwenden.
Während des Trainings wendet das Modell eine Verlustfunktion an, um die Lücke zwischen realen Ergebnissen und den Vorhersagen des Modells zu messen. Das Ziel des Trainings ist es, die Verlustfunktion zu minimieren und die generierten Outputs so realitätsnah wie möglich zu gestalten.
Bei der Inhaltserstellung handelt es sich um einen probabilistischen Prozess. Generative Modelle kennen die Dinge nicht auf dieselbe Weise, wie Menschen sie kennen. Vielmehr verwendet ein generatives Modell komplizierte mathematische Gleichungen, um die wahrscheinlichste Ausgabe auf der Grundlage der Regeln vorherzusagen, die es während des Trainings gelernt hat.
Generative Modelle versuchen, neue Daten einer bestimmten Klasse zu erzeugen. Diskriminative Modelle teilen Elemente in bekannte Gruppen ein, während Clustering-Modelle herausfinden, wie Elemente in einem Datensatz gruppiert werden können. Prädiktive Modelle treffen Einschätzungen über zukünftige Ereignisse oder Zustände auf der Grundlage historischer Daten.
Diskriminative Modelle werden in überwachten Lernaufgaben verwendet, bei denen die Kategorien oder Labels der Daten bekannt sind. Viele diskriminative Modelle sind Klassifikatoren, die versuchen, die Beziehungen zwischen Merkmalen und Labels zu identifizieren und dann neuen Daten auf der Grundlage der bedingten Wahrscheinlichkeit dieser Labels klassifizierende Labels zuzuweisen.
Beispielsweise kann ein diskriminatives Modell, das darauf trainiert ist, zwischen Bildern von Fischen und Vögeln zu unterscheiden, erraten, ob die Bilder eher Fische oder Vögel zeigen. Die Bilderkennung, eine Art der Klassifizierung im maschinellen Lernen, ist eine gängige Anwendung für diskriminative Modelle.
Generative Modelle und diskriminative Modelle weisen zwar deutliche Unterschiede auf, arbeiten aber oft zusammen, z. B. in einem Generative Adversarial Network (GAN).
Clustering-Modelle werden bei Aufgaben des unbeaufsichtigten Lernens verwendet, um Datensätze innerhalb eines Datensatzes in Clustern zu gruppieren. Sie können ähnliche Elemente identifizieren und auch erfahren, was diese Elemente von anderen Gruppen im Datensatz unterscheidet.
Clustering-Modellen fehlt das Vorwissen über die Elemente im Datensatz, einschließlich des Wissens darüber, wie viele Gruppen es geben könnte. Ein Marktforscher könnte ein Clustering-Modell verwenden, um Buyer Personas innerhalb seiner demografischen Zielgruppen zu identifizieren.
Vorhersagemodelle verarbeiten historische Daten, um mithilfe von maschinellem Lernen und statistischen Analysen Vorhersagen über zukünftige Ereignisse zu treffen. Sie werden oft eingesetzt, um Führungskräften dabei zu helfen, datengestützte Entscheidungen zu treffen. Prädiktive Modelle unterstützen auch prädiktive Textdienste, Gesichtserkennungssoftware, Betrugserkennung und Lösungen für die Lieferkette.
Generative Modelle erhalten während des Trainings nicht gekennzeichnete Daten. Sie entwickeln die Kategorisierungskriterien zurück. Welche Merkmale bewirken, dass ein Datenpunkt basierend auf einem bestimmten Label dieses Label erhält? Generative Modelle wollen die Merkmale eines Labels vorhersagen und diese Merkmale dann verwenden, um neue Beispiele für diese Daten zu generieren.
Ein generatives Modell, das darauf trainiert wurde, Bilder von Tieren zu generieren, kann versuchen, ein Bild eines Fisches zu erstellen, das auf dem basiert, was einen Fisch von anderen Tieren unterscheidet. Die Bildgenerierung ist ein häufiger Anwendungsfall für generative Modelle.
Es gibt viele Arten von generativen Modellen, von denen jedes seine eigene definierende Architektur hat: die Struktur des Modells, die bestimmt, wie es funktioniert. Deep Generative-Modelle sind ein Untertyp generativer Modelle, die mehrschichtige neuronale Deep Learning-Netzstrukturen – Deep Neural Networks – verwenden, um komplizierte, vielschichtige Beziehungen zwischen Datenpunkten in einem Datensatz zu verstehen.
Autoregressive Modelle prognostizieren den nächsten Datenpunkt in einer Sequenz basierend auf vorherigen Dateninstanzen. Transformer zeichnen sich durch ihre verbesserte Fähigkeit, Kontext zu verarbeiten, bei Aufgaben der Verarbeitung natürlicher Sprache (Natural Language Processing) aus.
Diffusionsmodelle erstellen neue Daten, indem sie einem Datensatz nach und nach Rauschen hinzufügen und dann herausfinden, wie sich das Rauschen entfernen lässt, um neue Ausgaben zu erzielen.
Generative adversarial networks (GANs) kombinieren ein diskriminatives und ein generatives Modell in einem Wettbewerb, mit dem Ziel, dass der Generator eine Ausgabe erzeugt, die den Diskriminator täuscht.
Variational Autoencoder (VAEs) komprimieren Eingabedaten mit einem Encoder und kehren den Vorgang dann mit einem Decoder um, um neue, ähnliche Daten zu erstellen.
Flussbasierte Modelle lernen die Beziehungen zwischen einfachen und komplexen Datenverteilungen durch reversible mathematische Operationen.
Autoregressive Modelle sagen das nächste Element in einer Sequenz auf der Grundlage früherer Elemente voraus. Sie bewerten die Komponenten in der Sequenz, um die wahrscheinliche Korrelation zwischen ihnen zu bestimmen, und verwenden dann diese Informationen, um eine neue Komponente zu identifizieren, die wahrscheinlich folgen wird.
Die Autoregression ist eine Art der linearen Regression, bei der es sich um ein statistisches Verfahren handelt, das den Wert einer Variablen basierend auf den Werten von 1 oder mehreren Variablen vorhersagt. Die Autoregression schränkt den Fokus auf die Zielvariable ein, berücksichtigt aber deren Werte im Zeitverlauf. Die Autoregression unterscheidet sich außerdem von der logistischen Regression dadurch, dass sie definierte Werte vorhersagt, während letztere eine prozentuale Wahrscheinlichkeit für das Eintreten eines bestimmten Ereignisses angibt.
Autoregressive Modelle nehmen die Form von wiederkehrenden neuronalen Netzen (Recurrent Neural Networks, RNNs) oder Transformer-Architekturen an.
Transformer-Modelle kamen erstmals 2017 auf den Markt1 und übertrafen schnell die RNNs, die bis dahin die führende Form der autoregressiven Modelle waren. Der Transformer behob mehrere eklatante Schwachstellen des RNN. RNNs hatten Schwierigkeiten, weitreichende Abhängigkeiten zu erfassen – Beziehungen zwischen den einzelnen Elementen einer Sequenz – und waren rechenineffizient, da sie die Elemente sequentiell, eines nach dem anderen, verarbeiteten.
Transformer führten zwei Innovationen ein, die die Architektur über RNNs hinaus katapultierten und sie zum De-facto-Standard für große Sprachmodelle (LLMs) in der generativen KI machten:
Parallele Verarbeitung: Transformatoren verarbeiten alle Elemente einer Sequenz gleichzeitig, was die Effizienz gegenüber sequenziellen RNNs verbessert. Transformoren können in viel kürzerer Zeit trainiert werden, insbesondere bei den großen Datensätzen, die für eine optimale Leistung erforderlich sind.
Selbstbeobachtungs-Mechanismen: Transformer können bei der Verarbeitung von Elementen die relative Wichtigkeit aller Elemente in einer Sequenz berücksichtigen. Die Selbstbeobachtung ermöglicht es Transformern, wichtige Beziehungen zwischen entfernten Elementen in einer Serie zu erfassen und so ein kontextuelles Verständnis zu ermöglichen, das RNNs fehlte. Die Fähigkeit, Kontext über große Eingabesequenzen hinweg zu verarbeiten, führt dazu, dass Transformer bei NLP-Aufgaben wie Textgenerierung und Sprachübersetzung hervorragende Leistungen erbringen.
Von den 3 Typen von Transformer-Modellen – Encoder, Decoder und Encoder-Decoder – enthalten die beiden letzteren autoregressive Komponenten. Decoder sind die generative Komponente und verwenden Autoregression, um Token zu generieren, die auf zuvor generierten Token basieren.
Autoregressive Modelle, insbesondere Transformatoren, sind heute weit verbreitet. Viele der führenden generativen KI-Modelle sind Transformer, darunter GPT und GPT-4o von OpenAI, Claude von Anthropic, Llama von Meta, Gemini von Google und Granite von IBM.
Zu den Anwendungsfällen autoregressiver Modelle gehören:
Verarbeitung natürlicher Sprache: Transformers können komplexe Abfrage in natürlicher Sprache verarbeiten und mit automatisierter Textgenerierung in Gesprächsform antworten, was sie ideal für den Einsatz als Chatbots macht. ChatGPT ist beispielsweise die Chatbot-Implementierung des generativen GPT-Modells von OpenAI. Weitere NLP-Anwendungen sind Stimmungsanalyse, Spracherkennung, Text-to-Speech-Anwendungen (TTS) und die Zusammenfassung von Dokumenten.
Unterstützung für die Codierung: Die gleichen autoregressiven Fähigkeiten, die es Transformern ermöglichen, bei der Texterstellung hervorragende Leistungen zu erbringen, ermöglichen es ihnen auch, Code zu debuggen und Code-Snippets zu generieren.
Zeitreihen-Forecasting: Die Autoregression kann leicht auf Zeitreihen-Forecasting angewendet werden, bei dem ein Modell zukünftige Werte auf der Grundlage früherer Trends vorhersagt. Zeitreihen-Forecasting wird häufig für die Finanzmodellierung sowie für Markt- und Wettervorhersagen eingesetzt.
Bestärkendes Lernen: Transformer werden zunehmend im bestärkenden Lernen eingesetzt, einer Trainingstechnik für maschinelles Lernen, mit der autonome Entscheidungen getroffen werden können. Transformatoren werden auch für Klassifizierungsaufgaben eingesetzt.
Diffusionsmodelle verschleiern oder diffundieren die Eingabedaten allmählich, indem sie Rauschen hinzufügen, und verfeinern dann das entstandene Chaos zu neuen, ähnlichen Daten. Sie generieren neue Daten, indem sie lernen, Rauschen in Daten zu verfeinern, die ihren Trainingsdatensätzen ähnlich sind. Diffusionsmodelle funktionieren in einem dreistufigen Prozess:
Schritt 1: Diffusion: Während des Trainings führt das Modell nach und nach Rauschen in seine Eingabedaten ein, bis die Daten nicht mehr erkennbar sind. Das Modell fügt den Daten bei jedem Schritt in einem mathematischen Prozess, der als Markov-Kette bekannt ist, eine geringe Menge an Gaußschem Rauschen hinzu.
Stellen Sie sich den Diffusionsprozess so vor, als würde ein Gitarrist den Gain-Regler seines Verstärkers langsam aufdrehen, bis der Klang seiner Gitarre zu einer Wand aus reinem Rauschen wird. So erzielen Rockgitarristen einen verzerrten Klang in ihrer Musik, wenn auch normalerweise nicht in diesem Ausmaß.
Schritt 2: Lernen: Das Modell verfolgt die Entwicklung der nun vernichteten Daten, um zu verstehen, wie sie durch den Rauschprozess verändert wurden. Diffusionsmodelle wiederholen diesen Prozess in jeder Phase des Rauschens.
Schritt 3: Umgekehrte Diffusion: Wenn das Diffusionsmodell versteht, wie Rauschen die Daten verändert, lernt es, den Rauschprozess umzukehren und die Eingabedaten zu rekonstruieren. Das Ziel der umgekehrten Diffusion ist es, die Markov-Kette rückwärts zu durchlaufen und das Gaußsche Rauschen zu entfernen, bis nur noch die reinen Daten übrig sind. Der Gitarrist aus Schritt 1 hat von seinen Bandkollegen einen strengen Rüffel einstecken müssen und dreht den Verstärker wieder auf ein akzeptables Niveau.
Die Schritte 1 und 2 werden angewendet, um Diffusionsmodelle zu trainieren. Nach dem Training generieren Diffusionsmodelle Daten durch Rückdiffundierung von zufälligem Rauschen, um die vom Benutzer-Prompt angeforderten Daten zu „finden“.
Diffusionsmodelle werden häufig für die Bilderzeugung verwendet, aber es gibt auch andere wichtige Anwendungsfälle. Zu den Anwendungen von Diffusionsmodellen gehören:
Bilderzeugung: Diffusionsmodelle unterstützen gängige Bildgenerierungs- und Bildsynthesetools wie Midjourney, Stable Diffusion und DALL-E 2 von OpenAI. Diese Modelle generieren Bilder als Reaktion auf Prompts. Diffusionsmodelle können qualitativ hochwertige, realistische Bilder erzeugen, auch von menschlichen Gesichtern.
Das US Copyright Office entschied im Jahr 2023, dass KI-generierte Bilder keinen Anspruch auf urheberrechtlichen Schutz haben. Unterdessen werden zahlreiche laufende Gerichtsverfahren2 darüber entscheiden, ob KI-generierte Bilder als Urheberrechtsverletzung gelten.
Inpainting und Outpainting: Beim Inpainting werden Inhalte innerhalb eines Bildes hinzugefügt oder entfernt, während Outpainting ein Bild über seine ursprünglichen Grenzen hinaus erweitert.
3D-Modellierung: DreamFusion von Google und Magic3D von NVIDIA sind Diffusionsmodelle, die 3D-Modelle aus Texteingaben erstellen.
Marktforschung: Diffusionsmodelle zeigen, wie sich Dinge im Laufe der Zeit entwickeln, und sind daher nützlich, um zu verstehen, wie Verbraucher auf ein Produkt reagieren.
Erkennung von Anomalien: Aufgrund ihrer Fähigkeit, lernen zu können, wie sich Daten im Laufe der Zeit ändern, können Diffusionsmodelle erkennen, wann Datenpunkte nicht zu etablierten Trends passen. Zu den Anwendungen zur Erkennung von Anomalien gehören Cybersicherheit, Betrugsprävention und Erkennung von Krankheiten.
Die 2014 eingeführten Generative Adversarial Networks (GANs) gehören zu den ersten generativen KI-Modelltypen, die 2 Modelle in einem Wettbewerb miteinander verbinden. Ein generatives Modell (Generator) erzeugt Ausgaben, die ein Unterscheidungsmodell (Diskriminator) als authentisch oder gefälscht einstufen muss. Ziel des Wettbewerbs ist es, dass der Generator Inhalte generiert, die vom Diskriminator als authentisch beurteilt werden.
Wenn der Generator ein Kunstfälscher ist, ist der Diskriminator ein Gutachter. Ein Kunsthändler könnte ein gefälschtes Werk erwerben und versuchen, es an ein Museum zu verkaufen, aber nicht bevor das Werk die Authentifizierung bestanden hat. Da der Fälscher immer besser darin wird, die großen Meister zu imitieren, könnte der Gutachter Schwierigkeiten haben, weitere Fälschungen zu erkennen. So dauert es nicht lange und das Museum zeigt eine Ausstellung voller gefälschter Werke.
Derselbe Trainingsprozess, der zu realistischen Ausgaben führt, kann auch zum Zusammenbruch des Modus führen: wenn der Generator einige seiner Trainingsdaten auslässt und sich auf einen engen Bereich von Stichprobentypen beschränkt. GANs sowie Diffusionsmodelle und Transformer erfordern umfangreiche Trainingsdatensätze für eine effektive Leistung.
Beide Netzwerke in einem GAN sind oft Convolutional Neural Networks (CNNs), eine frühe Art von neuronalen Netzwerken, die sich durch ihre starke Leistung bei Computer Vision-Aufgaben auszeichnen.
GANs werden vor allem im Bereich der Computer Vision und anderer grafikbezogener Aufgaben eingesetzt.
Computer Vision: Computer Vision ist die Verwendung von maschinellem Lernen , um Informationen aus Bildern zu verarbeiten. Zu den gängigen Aufgaben von Computer Vision gehören die Erkennung und Klassifizierung von Objekten, die Gesichtserkennung, die Übersetzung von Gebärdensprache und die Objektverfolgung.
Datenerweiterung: Datenerweiterung – die Verwendung bereits vorhandener Daten, um mehr Datenmuster zu erzeugen – kann die Leistung von Computer Vision mit CNNs noch weiter steigern. Dieser Prozess unterscheidet sich von synthetischen Daten insofern, als dass er auf realen Daten aufbaut, anstatt sie von Grund auf neu zu erstellen.
Variational Autoencoder (VAEs) komprimieren Eingabedaten und erweitern oder dekodieren diese Komprimierung dann, um neue, ähnliche Daten zu generieren. VAEs lernen die Verteilung eines Datensatzes und wenden diese Erwartungen bei der Generierung neuer Daten aus codierten Stichproben an. Wie alle Autoencoder bestehen VAEs aus zwei Komponenten: einem Encoder und einem Decoder.
Die Aufgabe des Encoders besteht darin, die latenten Variablen in einem Datensatz zu erlernen. Latente Variablen sind nicht direkt beobachtbar, spielen aber eine wichtige Rolle bei der Datenverteilung. Latenter Raum ist die zusammenfassende Bezeichnung für alle latenten Variablen in einem Datensatz. Der Encoder modelliert den latenten Raum in einer Weise, die Informationen erfasst, die für die genaue Rekonstruktion der Daten erforderlich sind. Alle anderen Variablen werden weggelassen.
Der Decoder nimmt die komprimierte Darstellung der Daten, den sogenannten Engpass, und extrapoliert sie zurück in die ursprüngliche Form der Daten. Ein effektiver Decoder erzeugt eine Ausgabe, die den ursprünglichen, vorkomprimierten Daten ähnelt.
VAEs haben im Vergleich zu Diffusionsmodellen und GANs Schwierigkeiten bei der Bilderzeugung, sind aber in anderen Bereichen hervorragend.
Bilderzeugung: VAEs werden bei der Bilderzeugung verwendet, obwohl sie bei den gängigen Anwendungen zur Bilderzeugung weitgehend durch Diffusionsmodelle ersetzt wurden. Im Vergleich zu anderen Bildgeneratoren erzeugen VAEs aufgrund ihrer „Durchschnittsbildung“ des latenten Raums tendenziell unscharfe Bilder.
Genomik: VAEs unterstützen Genetiker bei der Berechnung der Zuchtwerte – dem prognostizierten Wert, den ein Tier mit seinen Nachkommen bieten wird – sowie hinsichtlich der Krankheitsrisikobewertungen.
Erkennung von Anomalien: VAEs sind kostengünstiger und einfacher zu trainieren als GANs und Diffusoren, was sie zu einer attraktiven Wahl für Aufgaben zur Erkennung von Anomalien macht. Die neu erstellten Daten werden mit den ursprünglichen Daten verglichen, um Instanzen zu isolieren, die von der prognostizierten Verteilung abweichen.
Daten-Imputation: VAEs können neue Daten generieren, um fehlende Daten zu ersetzen und beschädigte Dateien wiederherzustellen. Beispiele hierfür sind das Bereinigen von Audiodateien und das Entrauschen von Videos sowie die medizinische Bildgebung. VAEs neigen zwar dazu, unscharfe Bilder von Grund auf neu zu erzeugen, sie können jedoch bereits vorhandene unscharfe Bilder wiederherstellen, indem sie das Bild entrauschen.
Halbüberwachtes Lernen: VAEs helfen beim Trainieren von Klassifikatoren, indem sie Datenverteilungen in Datensätzen mit unvollständiger Kennzeichnung erfassen. VAEs können auch eine Datenerweiterung durchführen, um zusätzliche Trainingsstichproben für den Klassifikator zu generieren.
Flussbasierte Modelle lernen die Datenverteilung durch eine Reihe von invertierbaren oder reversiblen mathematischen Transformationen. Die Daten können diese Pipeline, die als Normalisierungsfluss bezeichnet wird, verlustfrei in beide Richtungen durchlaufen. Während VAEs und GANs Datenverteilungen schätzen, lernen flussbasierte Modelle explizit die Wahrscheinlichkeitsdichtefunktion für den Datensatz.
In einem gegebenen Datensatz beschreibt die Wahrscheinlichkeitsdichtefunktion, wie die Daten verteilt sind. Normalisierungsflüsse gehen von einfachen zu komplexen Verteilungen, bis die Wahrscheinlichkeitsdichtefunktion der Zielvariablen identifiziert ist.
Flussbasierte Modelle können neue Datenproben erzeugen, die die gleichen statistischen Eigenschaften wie der ursprüngliche Datensatz aufweisen. Wie jede generative Modellierung basiert der Prozess auf dem Konzept, Stichproben aus den Trainingsdaten zu ziehen und komplexe statistische Mathematik anzuwenden, um ähnliche, neuartige Ergebnisse zu erzielen.
Flussbasierte Modelle glänzen in Fällen, in denen eine genaue Bewertung der Datenverteilung von entscheidender Bedeutung ist.
Bilderzeugung: Flussbasierte Modelle generieren Bilder, indem sie zufällig abgetastetes Rauschen durch Normalisierungsflüsse laufen lassen, um ein sauberes Bild zu erzeugen. PixelCNN ist ein bemerkenswertes Bildgenerierungsmodell aus dem Jahr 2016, das Autoregression auf die Transformationssequenz anwendet und Bilder Pixel für Pixel modelliert.
Genaue Dichteschätzung: Dichteschätzung ist die Herausforderung, die Wahrscheinlichkeitsdichtefunktion eines Datensatzes auf der Grundlage beobachtbarer Daten zu identifizieren. Während flussbasierte Modelle komplexe Datenverteilungen genau darstellen können, haben sie im Vergleich zu Transformatoren Schwierigkeiten, weitläufige Abhängigkeiten zu erfassen.
Generierung molekularer Graphen: Flussbasierte Modelle werden bei der Generierung molekularer Graphen verwendet, bei der neue molekulare Strukturen von generativen KI-Modellen als Graphen modelliert werden. Die Generierung molekularer Graphen ist ein wichtiges Instrument, um Wissenschaftler und Ingenieure bei der Entdeckung neuer Medikamente und Materialien zu unterstützen.
Dieselben Prozesse, die oft zu beeindruckenden Ergebnissen führen, sind auch die Ursache dafür, dass generative Modelle halluzinieren: wenn sie falsche oder irreführende Informationen ausgeben. Halluzinationen oder Konfabulationen treten auf, wenn Modelle in ihren Trainingsdatensätzen Muster wahrnehmen, die in der realen Welt nicht existieren.
Wenn man beispielsweise ChatGPT-4o mini die Frage „In welcher Folge von Seinfeld reist Kramer nach Bangladesch?“ stellt, erhält man folgende Antwort:
Kramer reist in der Folge „The Little Jerry“, der 145. Folge von Seinfeld, nach Bangladesch. Es ist die 145. [sic] Folge der Serie und wurde ursprünglich in Staffel 8 ausgestrahlt. In dieser Folge wird Kramer in einen Plan verwickelt, ein Spielzeug aus Bangladesch zu importieren.
The Little Jerry ist zwar die 145. Episode von Seinfeld und wurde in Staffel 8 ausgestrahlt, jedoch kauft und trainiert Kramer in dieser Folge einen Hahn – namens „Little Jerry“. Als man Chatbot noch einmal die gleiche Frage stellte, trat eine zweite, andere Halluzination auf:
Kramer reist in der Folge mit dem Titel „The Maldives“, der 18. Folge der 9. Staffel, nach Bangladesch. In dieser Folge versucht er, nach seiner Reise ein neues Leben zu beginnen, und die Handlung dreht sich um die Idee, dass er ein „bangladeschischer“ Fischer wird.
In Wirklichkeit ist die 18. Folge der 9. Staffel von Seinfeld The Frogger, und darin geht Kramer nur bis zur Polizeistation. Es gibt keine Folge von Seinfeld namens The Maldives, und während der gesamten Serie reist Kramer zu keinem Zeitpunkt nach Bangladesch.
Genauso wie autoregressive Modelle wie das GPT dafür bekannt sind, mit erfundenen Fakten zu halluzinieren, können auch andere Arten von Modellen auf ihre eigene Art und Weise halluzinieren. Diffusionsmodelle, die für die Bilderzeugung verwendet werden, stellen reale Objekte manchmal auf eine Weise dar, die nicht der Realität entspricht.
Es ist zwar noch nicht möglich, die Möglichkeit von Halluzinationen bei generativen KI-Modellen vollständig auszuschließen, aber es gibt Best Practices zu ihrer Minderung:
Klare Prompts: Je deutlicher das Prompt des Benutzers ist, desto gezielter kann die KI antworten. Geben Sie der KI innerhalb des Prompts Raum für eine detaillierte Antwort.
Zielgerichtete Anweisung: Wenn Sie einer KI eine klare Rolle zuweisen und sie anweisen, wahrheitsgetreue und überprüfbare Informationen bereitzustellen, können Sie sicherstellen, dass ihre Antworten die Realität besser widerspiegeln.
Hochwertige Daten: Je aktueller und relevanter die Trainingsdaten eines KI-Modells sind, desto geringer ist die Wahrscheinlichkeit, dass seine Antworten verzerrt sind.
Menschliche Überprüfung: KI-generierte Ergebnisse sollten nicht verwendet werden, ohne zuvor von sachkundigen Menschen verifiziert worden zu sein.
RAG und Feinabstimmung: Der Einsatz von RAG zur Erweiterung einer KI mit glaubwürdigen Daten und die Feinabstimmung von Modellen, um sie domänenspezifischer zu machen, sind beide wirksam bei der Reduzierung von Halluzinationen.
1. Attention Is All You Need, Vaswani et al, 2 Aug 2023
2. Artists Score Major Win in Copyright Case Against AI Art Generators, Winston Cho, The Hollywood Reporter, 13 August 2024
3. Diffusion-GAN: Training GANs with Diffusion, Wang et al, 25 Aug 2023
Erfahren Sie, wie CEOs den Wert, den generative KI schaffen kann, gegen die erforderlichen Investitionen und die damit verbundenen Risiken abwägen können.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.