Was ist Zero-Shot Learning?

Veröffentlicht: 24. Januar 2024
Mitwirkende: Dave Bergmann

Was ist Zero-Shot-Learning?

Zero-Shot-Learning (ZSL) ist ein Szenario des maschinellen Lernens, bei dem ein KI-Modell darauf trainiert wird, Objekte oder Konzepte zu erkennen und zu kategorisieren, ohne zuvor Beispiele für diese Kategorien oder Konzepte gesehen zu haben.

Die meisten modernen Deep-Learning-Modelle für die Klassifizierung oder Regression werden durch überwachtes Lernen trainiert, was viele gekennzeichnete Beispiele für relevante Datenklassen erfordert. Modelle „lernen“, indem sie Vorhersagen für einen gekennzeichneten Trainingsdatensatz treffen. Datenkennzeichnungen enthalten sowohl den Bereich der möglichen Antworten als auch die richtigen Antworten (oder die Grundwahrheit) für jedes Trainingsbeispiel. „Lernen“ bezieht sich hier auf die Anpassung der Modellgewichtungen, um die Differenz zwischen den Vorhersagen des Modells und dieser Grundwahrheit zu minimieren. Für diesen Prozess sind genügend gekennzeichnete Datenproben für viele Trainings- und Aktualisierungsrunden erforderlich. 

Das überwachte Lernen ist zwar wirkungsvoll, aber in einigen realen Szenarien unpraktisch. Das Kommentieren großer Mengen von Datenproben ist kostspielig und zeitaufwändig, und in Fällen wie seltenen Krankheiten und neu entdeckten Arten kann es vorkommen, dass Beispiele selten oder überhaupt gar nicht vorhanden sind. Nehmen wir zum Beispiel Bilderkennungsaufgaben: Einer Studie zufolge kann der Mensch etwa 30.000 individuell unterscheidbare Objektkategorien erkennen^.1 Es ist für Modelle der künstlichen Intelligenz aus Zeit-, Kosten- und Rechenressourcengründen nicht machbar, auch nur annähernd an die menschlichen Fähigkeiten heranzukommen, wenn sie explizit auf markierten Daten für jede Klasse trainiert werden müssen.

Die Notwendigkeit, dass Modelle des maschinellen Lernens in der Lage sein müssen, schnell und mit minimalem Trainingsaufwand auf eine große Anzahl semantischer Kategorien zu verallgemeinern, hat zum N-Shot-Learning geführt: eine Untergruppe des maschinellen Lernens, zu der auch das Few-Shot-Learning (FSL) und das One-Shot-Learning gehören. Beim Few-Shot-Learning werden in der Regel Transfer-Learning und auf Meta-Learning basierende Methoden verwendet, um Modelle zu trainieren, die mit nur wenigen gekennzeichneten Trainingsbeispielen – oder, beim One-Shot-Learning, mit einem einzigen gekennzeichneten Beispiel – schnell neue Klassen erkennen.

Das Zero-Shot-Learning bezieht sich wie alle N-Shot-Learning-Methoden nicht auf einen bestimmten Algorithmus oder eine bestimmte Architektur eines neuronalen Netzes, sondern auf die Art des Lernproblems selbst: Beim ZSL wird das Modell nicht anhand von gekennzeichneten Beispielen der ungesehenen Klassen trainiert, für die es nach dem Training Vorhersagen treffen soll.

Bei dieser Problemstellung wird nicht berücksichtigt, ob diese Klasse in den Trainingsdaten vorhanden (wenn auch nicht gekennzeichnet) war. Einige große Sprachmodelle (Large Language Models, LLMs) eignen sich beispielsweise gut für ZSL-Aufgaben, da sie durch selbstüberwachtes Lernen anhand eines riesigen Textkorpus trainiert werden, der zufällige Hinweise auf oder Wissen über unbekannte Datenklassen enthalten kann. Ohne gekennzeichnete Beispiele, auf die sie zurückgreifen können, sind alle ZSL-Methoden auf die Verwendung von solchem Zusatzwissen angewiesen, um Vorhersagen treffen zu können.

Aufgrund seiner Vielseitigkeit und des breiten Spektrums an Anwendungsfällen hat sich das Zero-Shot-Learning zu einem immer bedeutenderen Forschungsbereich der Data Science entwickelt, insbesondere in den Bereichen Computer Vision und Verarbeitung natürlicher Sprache (Natural Language Processing, NLP).

Generalisiertes Zero-Shot-Learning (GSZL)

In einer konventionellen ZSL-Umgebung wird das Modell an einem Datensatz getestet, der Stichproben aus ungesehenen Datenklassen enthält. Dies ist zwar nützlich für die Entwicklung und Validierung von Zero-Shot-Methoden, spiegelt aber nicht die häufigsten realen Bedingungen wider: Generalisiertes Zero-Shot-Learning (GSZL) bezieht sich auf das spezielle Problem des Zero-Shot-Learnings, bei dem die Datenpunkte, die das Modell klassifizieren soll, entweder zu ungesehenen Klassen oder zu gesehenen Klassen gehören können: Klassen, die das Modell bereits aus gekennzeichneten Beispielen „gelernt“ hat.

GSZL muss eine zusätzliche Herausforderung meistern: die Tendenz von Klassifizierern, Vorhersagen für Klassen zu treffen, die sie beim Training gesehen haben, und nicht für Klassen, denen sie noch nicht ausgesetzt waren. Daher sind bei GSZL oft zusätzliche Techniken erforderlich, um diese Verzerrung abzuschwächen.

Warum KI-Governance eine geschäftliche Notwendigkeit für die Skalierung von KI in Unternehmen ist

Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.

Ähnliche Inhalte

Registrieren Sie sich, um den Leitfaden zu Foundation Models zu lesen

Wie funktioniert Zero-Shot-Learning?

Da es keine gekennzeichneten Beispiele für die Kategorien gibt, die das Modell erlernen soll, werden beim Zero-Shot-Learning Hilfsinformationen verwendet: textuelle Beschreibungen, Attribute, eingebettete Darstellungen oder andere semantische Informationen, die für die jeweilige Aufgabe relevant sind.

Anstatt die Entscheidungsgrenzen zwischen den Klassen direkt zu modellieren, geben Zero-Shot-Learning-Verfahren in der Regel einen Wahrscheinlichkeitsvektor aus, der die Wahrscheinlichkeit darstellt, dass eine bestimmte Eingabe zu bestimmten Klassen gehört. GSZL-Methoden können einen vorläufigen Diskriminator hinzufügen, der zunächst feststellt, ob die Probe zu einer gesehenen Klasse oder zu einer neuen Klasse gehört, und dann entsprechend vorgeht.

Kennzeichnungen verstehen

Beim überwachten Lernen – sowie beim Few-Shot-Learning (FSL) – lernt das Modell, verschiedene Klassen zu erkennen, indem es ein oder mehrere gekennzeichnete Beispiele jeder Klasse direkt beobachtet. Ohne diese expliziten Anmerkungen als Orientierung erfordert Zero-Shot-Learning ein grundlegenderes Verständnis der Bedeutung der Kennzeichnung. 

Hier ist eine einfache Analogie: Stellen Sie sich vor, ein Kind möchte lernen, wie ein Vogel aussieht. In einem Prozess, der dem überwachten Lernen oder FSL ähnelt, lernt das Kind, indem es sich Bilder mit der Bezeichnung „Vogel“ in einem Buch mit Tierbildern ansieht. In Zukunft wird es einen Vogel erkennen, weil er den Bildern von Vögeln ähnelt, die das Kind bereits gesehen hat. In einem ZSL-Szenario sind jedoch keine derart gekennzeichneten Beispiele verfügbar. Stattdessen liest das Kind vielleicht einen Enzyklopädieeintrag über Vögel und erfährt, dass es sich um kleine oder mittelgroße Tiere mit Federn, Schnäbeln und Flügeln handelt, die durch die Luft fliegen können. Es wird dann in der Lage sein, einen Vogel in der realen Welt zu erkennen, obwohl es noch nie zuvor einen Vogel gesehen hat, weil es das Konzept eines Vogels gelernt hat.

Wie bereits erwähnt, haben LLMs ein natürliches Potenzial für ZSL bewiesen, das sich aus ihrer Fähigkeit ergibt, die Bedeutung der Wörter, die zur Benennung von Datenklassen verwendet werden, grundlegend zu verstehen.

Transferlernen

Um den Zeit- und Ressourcenaufwand für das Training sowie die Menge an Hilfsinformationen zu minimieren, die für die Identifizierung ungesehener Klassen benötigt werden, nutzt ZSL häufig das Transfer-Learning – die Wiederverwendung eines trainierten Modells für eine neue Aufgabe – anstatt Modelle von Grund auf zu trainieren.

Transfer-Learning wird vor allem in ZSL-Methoden verwendet, die Klassen und Muster als semantische Einbettungen darstellen. So könnte ein Modell, das eine Textklassifizierung auf der Basis von Zero-Shots durchführt, ein Transformer-basiertes Modell wie BERT verwenden, das bereits anhand eines umfangreichen Korpus von Sprachdaten trainiert wurde, um Wörter in Vektoreinbettungen umzuwandeln. Ebenso könnte ein Modell für die Klassifizierung von Bildern auf der Basis von Zero-Shots ein bereits trainiertes konvolutionales neuronales Netz (Convolutional Neural Network, CNN) wie ein ResNet oder U-Net verwenden, da es bereits Filtergewichtungen erlernt hat, die für die Identifizierung wichtiger Bildmerkmale zur Klassifizierung hilfreich sind.

Transfer-Learning ist besonders wichtig für GSZL, bei dem das Wissen des Modells über gesehene Klassen als Hilfsinformation über ungesehene Klassen verwendet werden kann.Stellen Sie sich zum Beispiel vor, ein Objekterkennungsmodell hat bereits gelernt, Grizzlybären zu erkennen. Anstatt es darauf zu trainieren, auch Eisbären zu erkennen, indem man ihm gekennzeichnete Beispiele von Eisbären vorgibt, kann man ihm beibringen, dass Eisbären wie Grizzlybären mit weißem Fell aussehen.

Dieser Prozess der Übertragung von gelerntem Wissen auf neue Aufgaben und andere Klassen wird auch als Domänenanpassung bezeichnet.

Attributbasierte Methoden

Attributbasierte Zero-Shot-Learning-Methoden verwenden eine Logik, die der des herkömmlichen überwachten Lernens ähnelt. Anstatt einen Klassifikator für gekennzeichnete Beispiele jeder Datenklasse direkt zu trainieren, werden Klassifikatoren für gekennzeichnete Merkmale bestimmter Datenklassen trainiert, z. B. Farbe, Form oder andere wichtige Eigenschaften.

Obwohl die Zielklassen nicht direkt im Training zu sehen sind, kann die Kennzeichnung einer unsichtbaren Klasse abgeleitet werden, wenn ihre Attribute den in den Trainingsdaten vorhandenen Attributklassen ähneln.

Sobald der Klassifikator alle relevanten Merkmale gelernt hat, kann er semantische Beschreibungen verschiedener Klassen verwenden. Dieser Ansatz ist besonders nützlich, wenn gekennzeichnete Beispiele einer Zielklasse nicht verfügbar sind, aber gekennzeichnete Beispiele für ihre charakteristischen Merkmale relativ häufig vorhanden sind. Ein Modell kann zum Beispiel „Streifen“ anhand von Bildern von Tigern und Zebras lernen; es kann „gelb“ anhand von Bildern von Kanarienvögeln und „fliegendes Insekt“ anhand von Bildern von Fliegen lernen. Das Modell kann nun eine Zero-Shot-Klassifizierung von Bienen vornehmen, obwohl es keine Bienenbilder im Trainingsdatensatz gibt, weil es diese als eine Kombination von gelernten Merkmalen verstehen kann: „gelbe, gestreifte fliegende Insekten“.

Attributbasierte ZSL-Methoden sind zwar vielseitig und unter den richtigen Umständen nützlich, haben jedoch auch bedeutende Nachteile:

Sie basieren auf der zentralen Annahme, dass jede Klasse mit einem einzigen Vektor von Attributen beschrieben werden kann, was jedoch nicht immer der Fall ist. Mall, Hariharan und Bala nennen zwei Beispiele: zum Einen den amerikanischen Stieglitz – dessen Farbe und Gefiedermuster je nach Geschlecht, Alter und Brutstatus variieren kann – und Badmintonplätze im Freien, die in Bezug auf Farbe, Oberfläche und Vorhandensein (oder Fehlen) von formalen Linien stark variieren^.2
Das Kommentieren von Beispielen einzelner Attribute kann möglicherweise genauso kostspielig und zeitaufwändig sein wie das Annotieren von Beispielen einer bestimmten Klasse.
Attributbasierte Methoden können nicht auf Klassen verallgemeinert werden, deren Attribute unbekannt oder in den verfügbaren Stichproben nicht vorhanden sind.

Einbettungsbasierte Methoden

Viele ZSL-Methoden stellen sowohl Klassen als auch Beispiele als semantische Einbettung dar: Vektorrepräsentationen, die verwendet werden können, um die Merkmale oder die Bedeutung von (und Beziehung zwischen) verschiedenen Datenpunkten widerzuspiegeln. Die Klassifizierung wird dann durch die Messung der Ähnlichkeit zwischen der semantischen Einbettung einer bestimmten Stichprobe und den Einbettungen der verschiedenen Klassen bestimmt, in die sie kategorisiert werden kann.

Sobald die Datenpunkte als Einbettungen dargestellt wurden, erfolgt die Klassifizierung nach ähnlichen Prinzipien wie bei den K-Nächste-Nachbarn-Algorithmen: Eine Abstandsmetrik, wie die Kosinusähnlichkeit, der Euklidische Abstand oder der Wasserstein-Abstand, wird verwendet, um die Nähe der Einbettung der Eingabedaten zu den Einbettungen für jede potenzielle Klasse zu messen. Je näher (oder ähnlicher) die Einbettung dieser Datenprobe an der Einbettung für eine bestimmte Klasse ist, desto wahrscheinlicher gehört sie zu dieser Klasse.

Diese Einbettungen können auf verschiedene Weise generiert werden. Hier sind einige Beispiele:

Vortrainierte Modelle und Algorithmen wie BERT, word2vec oder GloVe (Global Vectors) können ohne weiteres Vektoreinbettungen für Wörter (wie die Namen von Klassenbezeichnungen) ausgeben.
Ebenso können die Encoder-Netzwerke vortrainierter CNNs wie ResNet (oder Transformer-basierte Bild-Encoder wie ViT) dasselbe für Bilder tun.
Autoencoder können latente Repräsentationen von Proben oder Klassen erlernen. Dabei handelt es sich um komprimierte Kodierungen mit niedriger Dimension, die die charakteristischsten Variablen einer bestimmten Dateneingabe isolieren.
Anstelle des Transfer-Learnings kann eine Vielzahl von neuronalen Netzarchitekturen von Grund auf anhand von relevanten Trainingsdaten trainiert werden – etwa anhand von Stichproben relevanter Datenklassen, für die gekennzeichnete Beispiele verfügbar sind –, um effektive Einbettungen auszugeben.

Gemeinsamer Einbettungsraum
Da einbettungsbasierte Methoden in der Regel Hilfsinformationen und Vektorraumeinbettungen verschiedener Formen (oder Modalitäten) von Daten verarbeiten, z. B. Worteinbettungen, die eine Klassenkennzeichnung beschreiben, und die Bildeinbettung eines Fotos, das zu dieser Klasse gehören könnte, benötigen sie eine Möglichkeit, den Vergleich zwischen Einbettungen verschiedener Datentypen zu erleichtern.

Damit ein Vergleich möglich ist, müssen Vektoreinbettungen unterschiedlicher Art und Größe normalisiert und auf einen gemeinsamen semantischen Raum mit hoher Dimension projiziert werden, der als gemeinsamer Einbettungsraum bezeichnet wird, in dem sie unter gleichen Bedingungen verglichen werden können. Abstrakt gesehen funktioniert dies ähnlich wie das Konzept der Suche nach dem kleinsten gemeinsamen Nenner, um ungleiche Brüche zu vergleichen. Eine starke, korrelative Zuordnung zwischen verschiedenen Einbettungsquellen ist für die Generalisierungsleistung eines Modells unerlässlich.³

Einige Zero-Shot-Learning-Modelle verwenden auch kontrastierendes Lernen, um semantische Einbettungen aus verschiedenen Modellen oder Algorithmen besser auszurichten: Mit Paaren semantischer Einbettung trainiert das kontrastierende Lernen Modelle, um den Abstand zwischen „positiven“ Paaren zu minimieren (z. B. das Einbetten eines Hundebildes und das Wort „Hund“) und den Abstand zwischen „negativen“ (nicht übereinstimmenden) Paaren zu maximieren.

Gemeinsames End-to-End-Training
Eine effektive Möglichkeit, die Ausrichtung zwischen Einbettungen aus verschiedenen Modellen zu gewährleisten, besteht darin, diese Modelle nebeneinander gemeinsam zu trainieren. Zum Beispiel wurde das Contrastive Language-Image Pre-Training-Modell (CLIP) von OpenAI anhand eines enormen, nicht gekennzeichneten Datensatzes mit über 400 Millionen Bilduntertitelpaaren aus dem Internet trainiert.

Diese Paare wurden verwendet, um gemeinsam einen Bild-Encoder und einen Text-Encoder von Grund auf neu zu trainieren, wobei der Kontrastverlust verwendet wurde, um die Kosinusähnlichkeit zwischen Bildeinbettungen und den Einbettungen für ihre entsprechenden Bildunterschriften zu maximieren. Daraus ergab sich eine natürliche Fähigkeit zur Zero-Shot-Klassifizierung: Ohne Feinabstimmung zeigte CLIP eine starke Klassifizierungsleistung bei 27 verschiedenen Bildklassifizierungsdatensätzen.

Generativ-basierte Methoden

Generative KI bietet eine alternative Lösung für das Problem beim Zero-Shot-Learning: die Verwendung von Hilfsinformationen zur Generierung von Beispieldaten.

Bei generativ-basierten Methoden können die semantischen Repräsentationen der ungesehenen Klassen genutzt werden, um Stichproben zu generieren, die, sobald sie gekennzeichnet sind, dazu verwendet werden können, das Lernproblem in ein standardmäßiges überwachtes Lernen umzuwandeln. Obwohl nicht gekennzeichnete Stichproben (oder Repräsentationen eng verwandter gesehener Klassen) bei der Synthese von Stichproben hilfreich sein können, stützt sich dieser Prozess in einer Zero-Shot-Umgebung oft hauptsächlich auf semantische Beschreibungen.

LLMs können den Arbeitsaufwand für die Erstellung qualitativ hochwertiger Beschreibungen reduzieren: Im Release Paper für das Text-zu-Bild-Generierungsmodell DALL-E 3 stellte OpenAI fest, dass synthetische Beschriftungen die Leistung des Modells im Vergleich zu „echten“ Beschriftungen sogar verbessern.⁵

Variationale Autoencoder
Variationale Autoencoder (VAEs) sind selbstüberwachte generative Modelle, die latente Repräsentationen von Trainingsdaten als parametrisierte Verteilung latenter Variablen lernen. Mit anderen Worten: Sie lernen, eine Datenklasse nicht als statische semantische Einbettung, sondern als Wahrscheinlichkeitsverteilung im latenten Raum zu kodieren. Der Decoder kann dann dazu verwendet werden, eine Zufallsstichprobe aus diesem latenten Raum zu erzeugen. Bedingte VAEs (Conditional VAEs, CVAEs) können die Eigenschaften der synthetisierten Stichproben einschränken, indem sie die Wahrscheinlichkeit der ausgewählten Variablen maximieren.

Generative Adversarial Netzwerke (GANS)
GANs bestehen aus zwei neuronalen Netzen, die gemeinsam in einem kontradiktorischen Nullsummenspiel trainiert werden: einem Generator, der semantische Attribute und Gaußsches Rauschen verwendet, um Proben zu synthetisieren, und einem Diskriminator, der bestimmt, ob Proben echt oder „gefälscht“ (d. h. vom Generator synthetisiert) sind ). Das Feedback des Diskriminators wird verwendet, um den Generator zu trainieren, bis der Diskriminator nicht mehr zwischen echten und gefälschten Proben unterscheiden kann. Seit dem ursprünglichen GAN-Paper aus dem Jahr 2014 wurden zahlreiche Modifikationen entwickelt, um diesen Prozess zu optimieren und zu stabilisieren.

VAEGANs
Sowohl VAEs als auch GANs haben ihre Nachteile:

VAEs sind stabil, erzeugen aber aufgrund der Art und Weise, wie Proben aus dem latenten Raum rekonstruiert werden, tendenziell verschwommene Bilder.
GANs lernen, qualitativ hochwertige Bilder zu erzeugen, neigen jedoch zur Destabilisierung, da sie zwei separate und unterschiedliche Trainingsprozesse zusammenführen müssen.

Obwohl eine Reihe von Modifikationen entwickelt wurden, um beide Prozesse zu optimieren und zu stabilisieren, hat die Kombination der beiden Modellarchitekturen vielversprechende Ergebnisse in einer Zero-Shot-Umgebung hervorgebracht.⁶

Große Sprachmodelle (Large Language Models, LLMs)
LLMs können auch verwendet werden, um gekennzeichnete Stichproben zu synthetisieren: zum Beispiel mit einem autoregressiven Modell wie Llama 2, um Stichproben zu generieren, die zum Trainieren eines bidirektionalen Sprachmodells wie Sentence-BERT für Textklassifizierungsaufgaben verwendet werden können.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.

watsonx.ai erkunden

KI-Beratungsleistungen

Stellen Sie sich die Art und Weise, wie Sie mit KI arbeiten, neu vor: Unser vielfältiges, globales Team von mehr als 20.000 KI-Experten kann Ihnen dabei helfen, KI und Automatisierung in Ihrem Unternehmen schnell und sicher zu entwerfen und zu skalieren, indem es mit unserer eigenen IBM watsonx-Technologie und einem offenen Ökosystem von Partnern arbeitet, um jedes KI-Modell in jeder Cloud bereitzustellen, geleitet von Ethik und Vertrauen.

Entdecken Sie unsere IBM KI-Beratungsleistungen

IBM watsonx.data

Skalieren Sie Analysen und KI mit all Ihren Daten, wo auch immer sie gespeichert sind, mit offenen Formaten für den Zugriff auf all Ihre Daten über einen einzigen Zugangspunkt und einer generativen, KI-gestützten Konversationsschnittstelle zum einfachen Auffinden, Erweitern und Visualisieren von Daten – und zum Erschließen neuer Datenerkenntnisse.

IBM watsonx.data entdecken

Ressourcen zum Thema Zero-Shot-Learning

Beispiel-Prompts im Foundation Model für häufige Aufgaben

Es gibt nicht den einen richtigen Weg, um Prompts für Foundation Models zu erzeugen. In Wissenschaft und Industrie wurden jedoch zuverlässige Muster gefunden. Verwenden Sie die Beispiele in diesem Tutorial, um Ihre Fähigkeiten und Ihr Gespür für Prompt-Engineering – auch für Zero-Shot-Aufgaben – durch Experimente zu erweitern.

Was ist selbstüberwachtes Lernen?

Selbstüberwachtes Lernen wird beim Training einer Vielzahl anspruchsvoller Deep-Learning-Architekturen für verschiedene Aufgaben eingesetzt, von transformatorbasierten LLMs wie BERT und GPT über Bildsynthesemodelle wie Variational Autoencoder (VAEs) und Generative Adversial Netzwerke (GANs) bis hin zu Computer-Vision-Modellen wie SimCLR und Momentum Contrast (MoCo).

Multitasking-Prompted-Training ermöglicht die Generalisierung von Zero-Shot-Aufgaben

LLMs zeigen eine angemessene Zero-Shot-Generalisierung bei einer Reihe von Aufgaben. Es wurde die Hypothese aufgestellt, dass dies eine Folge des impliziten Multitasking-Lernens beim Training ist. Kann die Zero-Shot-Generalisierung stattdessen direkt durch explizites Multitasking-Lernen herbeigeführt werden? Wir gehen dieser Frage in großem Maßstab auf den Grund.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden

Buchen Sie eine Live-Demo

Fußnoten

^{Alle Links befinden sich außerhalb von ibm.com}¹ „Recognition-by-components: A theory of human image understanding“, Psychological Review Vol. 94 (S. 115–147), 1987.
² „Zero-shot Learning Using Multimodal Descriptions“, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2022.
³ „Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation“, arXiv, 18. April 2021.
⁴ „CLIP: Connecting text and images“, OpenAI, 5. Januar 2021.
⁵ „Improving Image Generation with Better Captions“, OpenAI, 2023.
⁶ „Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning“, PubMed, 13. Januar 2023.