Was ist Few-Shot Learning?

Was ist Few-Shot-Learning?

Few-Shot-Learning ist ein Framework für maschinelles Lernen, bei dem ein KI-Modell lernt, genaue Vorhersagen zu treffen, indem es mit einer sehr kleinen Anzahl von gekennzeichneten Beispielen trainiert wird. Es wird in der Regel verwendet, um Modelle für Klassifizierungsaufgaben zu trainieren, wenn es nur wenige geeignete Trainingsdaten gibt.

Few-Shot-Learning (FSL) ist eine Untergruppe dessen, was manchmal generell als n-Shot-Learning bezeichnet wird. Zu dieser Kategorie der künstlichen Intelligenz gehören auch das One-Shot-Learning (bei dem es nur ein gekennzeichnetes Beispiel jeder zu lernenden Klasse gibt) und das Zero-Shot-Learning (bei dem es überhaupt keine gekennzeichneten Beispiele gibt). Während das One-Shot-Learning im Grunde nur eine anspruchsvolle Variante des FSL ist, stellt das Zero-Shot-Learning ein eigenständiges Lernproblem dar, das seine eigenen Methoden erfordert.

Im Prinzip zielt FSL darauf ab, die menschliche Fähigkeit nachzuahmen, aus einer Handvoll Beispielen zu lernen. Dies steht im Gegensatz zum konventionellen überwachten Lernen, das in der Regel Hunderte (oder Tausende) gekennzeichnete Datenpunkte über viele Trainingsrunden hinweg verwendet, um KI-Modelle darin zu schulen, Datenklassen zu erkennen. Obwohl leistungsfähiges, überwachtes Lernen in manchen realen Situationen nicht praktikabel ist, gestaltet sich die Beschaffung gekennzeichneter Beispiele oft schwierig. Das liegt daran, weil die Kosten zu hoch sind, weil fachbereichsspezifische Expertise erforderlich ist, um die Daten korrekt zu kennzeichnen, oder weil es – wie bei einzigartigen Handschriften, seltenen Krankheiten oder gefährdeten und neu entdeckten Arten – nur wenige Stichproben gibt.

Während bestimmte Algorithmen und neuronale Netzarchitekturen bei FSL-Aufgaben bemerkenswerte Erfolge erzielt haben, wird das Few-Shot-Learning eher durch die Art des Lernproblems definiert als durch die Verwendung einer bestimmten Methode oder Modellstruktur. Die Bandbreite der Methoden für Few-Shot-Learning ist groß und reicht von der Anpassung bereits trainierter Modelle für ähnliche Aufgaben über die Verwendung generativer Modelle zur Erstellung neuer Stichproben bis hin zu Meta-Learning-Methoden, bei denen Modelle so trainiert werden, dass sie sich für neue Klassifizierungsprobleme und verschiedene Datenklassen gut verallgemeinern lassen, anstatt nur eine bestimmte Aufgabe zu erfüllen.

Warum KI-Governance eine geschäftliche Notwendigkeit für die Skalierung von KI in Unternehmen ist

Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.

Ähnliche Inhalte

Registrieren Sie sich, um den Leitfaden zu Foundation Models zu lesen

Wie funktioniert die „Few-Shot“-Klassifizierung?

Obwohl beim Few-Shot-Learning eine große Vielfalt an Algorithmen oder neuronalen Netzarchitekturen zum Einsatz kommen kann, basieren die meisten Methoden auf Transfer-Learning oder Meta-Learning (oder einer Kombination aus beiden).

Während Few-Shot-Learning auch auf Regressionsaufgaben (oder sogar Reinforcement Learning) angewendet werden kann, konzentriert sich der Großteil der FSL-Literatur auf Anwendungsfälle der Klassifizierung. Einige FSL-Methoden können zusammen mit anderen Lösungen verwendet werden, die die Unklarheit gekennzeichneter Daten angehen: z. B. bei halbüberwachten Lernmethoden, die Informationen aus großen Mengen von nicht gekennzeichneten Daten zusammen mit Informationen aus dem Few-Shot-Learning auf der Grundlage der begrenzten Anzahl von gekennzeichneten Stichproben einbeziehen.¹

Transferlernen

Auf Transfer-Learning basierende Methoden konzentrieren sich auf die Anpassung eines vorab trainierten Modells, um neue Aufgaben oder bisher unbekannte Datenklassen zu erlernen.

Wenn nur wenige gekennzeichnete Stichproben zur Verfügung stehen, führt die Verwendung von überwachtem Lernen zum Trainieren eines Modells von Grund auf – insbesondere eines Modells mit einer großen Anzahl von Parametern, wie z. B. die typischerweise in der Computer Vision verwendeten Convolutional Neural Networks (CNNs) oder die Transformator-basierten Netzwerke, die in der Verarbeitung natürlicher Sprache (NLP) verwendet werden – oft zu einer Überanpassung: Das Modell könnte bei Testdaten gut abschneiden, aber bei realen Daten schlecht. Allerdings führt die Sammlung einer ausreichend großen Datenmenge, um eine Überanpassung zu vermeiden, häufig zu Engpässen bei der Modellschulung.

Transfer-Learning bietet eine praktische Lösung: Die Nutzung von nützlichen Merkmalen und Darstellungen, die ein trainiertes Modell bereits gelernt hat. Ein einfacher Ansatz besteht darin, ein Klassifizierungsmodell so zu abzustimmen, dass es die gleiche Aufgabe für eine neue Klasse durch überwachtes Lernen an einer kleinen Anzahl von gekennzeichneten Beispielen ausführt. Bei komplexeren Ansätzen werden neue Skills durch das Design relevanter nachgelagerter Aufgaben – oft Meta-Learning-Aufgaben – einem Modell beigebracht, das über selbstüberwachte Pretext-Aufgaben vortrainiert wurde: Dies ist im NLP-Bereich zunehmend üblich, insbesondere im Zusammenhang mit Foundation Models.

Komplexere Ansätze des Transfer-Learnings passen ein geschultes neuronales Netz über Änderungen an der Netzwerkarchitektur an: Zum Beispiel das Ersetzen oder Neutraining der äußeren Schichten eines neuronalen Netzes, in dem die endgültige Klassifizierung erfolgt, während gleichzeitig die internen Schichten beibehalten werden, in denen die Extraktion der Merkmale stattfindet. Das Einfrieren (oder anderweitige Regulieren von Änderungen) der Modellgewichtungen für alle außer den äußersten Schichten kann sicherstellen, dass nachfolgende Aktualisierungen nicht zu einem „katastrophalen Vergessen“ von bereits gelerntem Wissen führen. Auf diese Weise lässt sich das Few-Shot-Learning erheblich beschleunigen.

Transfer-Learning ist am erfolgreichsten, wenn das anfängliche Training des Modells für die neue Aufgabe relevant ist. Ein Modell, das beispielsweise auf bestimmte Vogelarten trainiert wurde, lässt sich nach der Feinabstimmung mit nur wenigen gekennzeichneten Stichproben gut auf unbekannte Vogelarten verallgemeinern, da die gelernten Gewichtungen der Filter, die das CNN für die Konvolution verwendet, bereits für die Erfassung von Merkmalen optimiert sind, die für die Klassifizierung von Vögeln relevant sind (z. B. Gefieder, Schnäbel, Flügelgröße usw.). Wenn man jedoch dasselbe Modell mit Few-Shot-Learning auf die Erkennung von Fahrzeugen trainiert, wird die Leistung weniger zufriedenstellend ausfallen.

Ansatz auf Datenebene

Eine alternative Lösung für das Problem der begrenzten gekennzeichneten Datenstichproben besteht darin, zusätzliche Stichproben für das Training zu generieren. Dies ist besonders nützlich, wenn Beispiele für eine bestimmte Datenklasse aus der realen Welt äußerst selten sind, wie dies bei seltenen Krankheiten oder exotischen Arten der Fall sein kann.

Die Datengenerierung über generative Modelle wie Generative Adversarial Networks (GANs) oder Variational Autoencoder (VAEs) kann potenziell genügend Stichproben liefern, die den ursprünglich gekennzeichneten Stichproben ähneln, um konventionelles überwachtes Lernen durchzuführen, vorausgesetzt, die ursprünglichen Stichproben waren ausreichend vielfältig, um eine Überanpassung zu vermeiden.

Die Datenerweiterung, also die Erstellung neuer Stichproben durch Anwendung verschiedener Transformationen auf die ursprünglichen Stichproben, kann mit anderen Methoden kombiniert werden: Sie kann zum Beispiel verwendet werden, um passende Stichproben für die Verwendung beim metrischen Meta-Learning zu erstellen, ähnlich wie beim kontrastiven selbstüberwachten Lernen.

Meta-Learning

Anders als beim überwachten Lernen oder bei der Feinabstimmung, bei der ein Klassifikator für genau die Aufgaben trainiert wird, für die er verwendet werden soll, und die Trainingsmenge dieselben Klassen enthält, an denen das Modell getestet werden soll, verfolgt das Meta-Learning einen breiteren, indirekteren Ansatz. Während Ansätze, die auf dem Transfer-Learning aufbauen, vortrainierte Modelle anpassen, werden bei Meta-Learning-Methoden die Systeme oft von Grund auf neu trainiert. 

Laut Santoro et al. bezieht sich „Meta-Learning“ auf Szenarien, in denen mehrere Aufgaben verwendet werden, um ein Modell sowohl auf kurz- als auch auf langfristiger Ebene zu trainieren. Innerhalb jeder Aufgabe lernt das Modell schnell, um Vorhersagen zu treffen, die für den begrenzten Bereich dieser spezifischen Aufgabe relevant sind. Aufgabenübergreifend sammelt das Modell nach und nach Wissen, indem es die Art und Weise erfasst, wie sich Muster und Aufgabenstruktur in den verschiedenen Zielbereichen unterscheiden. Dieser zweistufige Prozess wird oft als Modell des „Lernens zum Lernen“ beschrieben. ²

Das Ziel vieler bekannter Meta-Learning-Methoden besteht beispielsweise darin, eine Modellfunktion über mehrere Trainingsepisoden hinweg so zu trainieren, dass sie eine Vorhersage für den Grad der Ähnlichkeit zwischen Datenpunkten aus beliebigen Klassen – einschließlich Klassen, die das Modell noch nicht gesehen hat – ausgibt, um dann die Erkenntnisse aus diesem Prozess so zu nutzen, dass nachgelagerte Aufgaben (wie speziell definierte Klassifizierungsprobleme) gelöst werden können.

Einige Meta-Learning-Ansätze funktionieren auf einer abstrakteren Ebene, indem sie Modelle so trainieren, dass sie leicht zu trainieren sind. Beim traditionellen überwachten Lernen werden die Parameter eines Modells (wie Gewichtungen und Bias) „gelernt“, während die Hyperparameter des Modells – wie die Lernrate oder die Art und Weise, wie Parameter initialisiert werden – vor dem Training konfiguriert werden müssen und nicht Teil des Lernprozesses sind. Das Meta-Learning kann ähnliche Vorteile wie das Transfer-Learning bieten, indem es ideale Ausgangspunkte lernt: Parameterinitialisierungen oder andere Hyperparameter, die sich mit einer minimalen Anzahl von Trainingsschritten gut auf verschiedene Datensätze verallgemeinern lassen.

N-Way-K-Shot-Klassifizierung

Obwohl für das Few-Shot-Learning eine Vielzahl von Modellarchitekturen des maschinellen Lernens verwendet werden können, folgt die Struktur des FSL-Trainings und der Bewertung im Allgemeinen einem N-Way-K-Shot-Framework, in dem N die Anzahl der Klassen und K die Anzahl der Beispiele (oder „Shots“) für jede Klasse darstellt.

 Bei der N-Way-K-Shot-Klassifizierung durchläuft das Modell mehrere Trainingsepisoden. Jede Trainingsepisode besteht aus einer oder mehreren Trainingsaufgaben. Modelle werden anhand von Testaufgaben ausgewertet, deren Struktur die der Trainingsaufgaben widerspiegeln. Jede Trainingsaufgabe (und Testaufgabe) umfasst dabei zwei Datensätze:

Die Unterstützungsmenge enthält K-gekennzeichnete Trainingsstichproben für jede der N-Klassen. Das Modell verwendet diese Unterstützungsstichproben, um verallgemeinerte Darstellungen für jede Klasse zu lernen. Der Datensatz für eine 3-Way-2-Shot-Klassifizierungsaufgabe enthält zum Beispiel 3 Bildklassen und liefert jeweils 2 Beispiele. Wenn K=1 ist, handelt es sich um One-Shot-Learning. Wenn K=0 ist, handelt es sich um Zero-Shot-Learning, das in der Regel eindeutige Lösungen erfordert.
Der Abfragesatz enthält ein oder mehrere neue Beispiele für jede der N-Klassen. Mithilfe von Repräsentationen, die aus der Unterstützungsmenge gelernt wurden, sagt das Modell die Klassifizierung für jedes Beispiel in der Abfragemenge voraus. Eine Verlustfunktion misst die Divergenz („Verlust“) zwischen den Vorhersagen des Modells und den „richtigen“ Vorhersagen. Nach jeder Trainingsepisode werden die Modellparameter angepasst – optimiert –, um Verluste zu minimieren.

Da das Ziel des Meta-Learnings darin besteht, Modelle so zu trainieren, dass sie gut für unbekannte Daten verallgemeinert werden können, und nicht darin, bestimmte Datenklassen zu erkennen, umfasst jede Trainingsaufgabe in der Regel andere Datenklassen als die, die in den vorangegangenen Trainingsaufgaben verwendet wurden.

Um die Fähigkeit des Modells zu testen, genaue Ähnlichkeitsvorhersagen für bisher unbekannte Klassen zu treffen, müssen die zum Testen verwendete Unterstützungsmenge und die Abfragemenge völlig neue Datenklassen enthalten, mit denen das Modell bei den Trainingsaufgaben noch nicht in Berührung gekommen ist.

Metrikbasiertes Meta-Learning

Metrikbasierte Meta-Learning-Algorithmen funktionieren im Prinzip ähnlich wie die von K-Nächste-Nachbarn: Statt Klassifizierung vorherzusagen, indem die Entscheidungsgrenze zwischen Klassen direkt modelliert wird, generieren metrikbasierte Ansätze einen kontinuierlichen Wert (z. B. eine Vektoreinbettung), um eine bestimmte Datenprobe darzustellen, und sie ziehen Schlüsse, indem sie eine Funktion erlernen, die eine Distanzmetrik misst, die die Ähnlichkeit zwischen diesem Wert und dem Wert der verschiedenen Proben oder Klassen, mit denen er verglichen wird, darstellt.

Metrikbasierte FSL-Algorithmen

Siamesische Netzwerke

Siamesische Netzwerke, eine relativ frühe Entwicklung von metrikbasierten Algorithmen, lösen Binärklassifizierungsprobleme durch kontrastierendes Lernen: Bei zwei Stichproben sagen siamesische Netzwerke voraus, ob es sich um ein positives (übereinstimmendes) oder negatives (nicht übereinstimmendes) Paar handelt. Die Verlustfunktion des Modells wird verwendet, um den Abstand zwischen Vektoreinbettungen positiver Paare zu minimieren und den Abstand zwischen Einbettungen negativer Paare zu maximieren. Triplet-Verlust-Modelle sind ziemlich ähnlich: Angesichts einer Ankerprobe und zwei zusätzlichen Stichproben – eine stimmt überein, die andere nicht – sagt das Modell voraus, welche eine positive Übereinstimmung ist und welche eine negative.

Bei beiden Methoden ist es wichtig, dass die Trainingsproben relativ schwer voneinander zu unterscheiden sind – andernfalls wird das Modell nicht gezwungen, Parameter zu lernen, die effektivere Einbettungen ergeben. Die Datenerweiterung wird häufig eingesetzt, wenn es nur wenige übereinstimmende Stichproben gibt.

Lesen Sie den Artikel: „Siamese Neural Networks for One-shot Image Recognition“ (Siamesische neuronale Netze für die One-Shot-Bilderkennung)

Matching-Netzwerke

Während siamesische Netzwerke nur binäre Klassifizierungsaufgaben lösen können, können Matching-Netzwerke eine mehrfache Klassifizierung durchführen. Deshalb wird dies als einer der ersten dedizierten Few-Shot-Learning-Algorithmen angesehen.

Matching-Netzwerke geben eine Einbettung für jede Stichprobe in den Unterstützungs- und Abfragesätzen aus, indem sie ein geeignetes neuronales Netz verwenden (z. B. ein CNN für Bildaufgaben oder LLM für Aufgaben in natürlicher Sprache) und prognostizieren die Klassifizierung, indem sie den Kosinusabstand zwischen der Einbettung der Abfragestichprobe und der der verfügbaren Unterstützungsstichproben messen.

Lesen Sie den Artikel: „Matching Networks for One Shot-Learning“ (Matching-Netzwerke für Shot-Learning)

Prototypische Netzwerke

Prototypische Netzwerke berechnen die durchschnittlichen Merkmale aller für jede Klasse verfügbaren Stichproben, um einen Prototyp für jede Klasse zu berechnen. Die Klassifizierung eines bestimmten Datenpunktes wird dann durch seine relative Nähe zu den Prototypen für jede Klasse bestimmt. Im Gegensatz zu Matching-Netzwerken verwenden prototypische Netzwerke eher die euklidische Distanz als die Kosinusdistanz.

Es wurden zahlreiche Verbesserungsvorschläge für diesen Ansatz gemacht: Zhu und Koniusz schlugen beispielsweise vor, den Prototyping-Prozess mit Hilfe von Kennzeichnungspropagation zu verbessern.³

Lesen Sie den Artikel: „Prototypical Networks for Few-shot Learning“ (Prototypische Netzwerke für Few-Shot-Learning)

Relationsnetzwerke

Ein Relationsnetzwerk (RN) arbeitet nach dem gleichen allgemeinen Prinzip wie Matching- und prototypische Netzwerke. RNs verwenden auch ein Einbettungsmodul, das lernt, Einbettungen für Eingabebilder und Klassenprototypen zu berechnen – aber im Gegensatz zu diesen beiden Algorithmen, die die zum Vergleich von Einbettungen verwendete Distanzfunktion vordefinieren, fügen RNs ein Beziehungsmodul hinzu, das eine nichtlineare Distanzfunktion erlernt, die am besten zu den jeweiligen Klassifizierungsproblem passt.

Lesen Sie den Artikel: „Learning to Compare: Relation Network for Few-Shot Learning“ (Lernen für den Vergleich: Relationsnetzwerk für Few-Shot-Learning)

Optimierungsbasiertes Meta-Learning

Deep Learning erfordert traditionell viele iterative Aktualisierungen von Modellparametern durch Backpropagation und Gradientenabstieg, was wiederum von einer riesigen Menge gekennzeichneter Beispiele abhängt, um Trainingssätze zu erzeugen. Damit ein neuronales Netz für das Few-Shot-Learning effizient von Grund auf trainiert werden kann, muss eine Möglichkeit gefunden werden, die Modellgewichtungen in nur wenigen Aktualisierungsschritten zu optimieren.

Optimierungsbasierte FSL-Methoden

Optimierungsbasierte Meta-Learning-Ansätze, auch als gradientenbasiertes Meta-Learning (GMBL) bezeichnet, zielen darauf ab, erste Modellparameter oder Hyperparameter für ein neuronales Netz zu erlernen, die effizient auf relevante Aufgaben abgestimmt werden können. Sie erreichen dies, indem sie den Prozess des Gradientenabstiegs optimieren, d.
h. indem sie den Prozess der Optimierung selbst durch Mera-Optimierung unterstützen.

Modellagnostisches Meta-Learning (MAML)

MAML gehört zu den bekanntesten optimierungsbasierten Ansätzen und war die Grundlage für eine Reihe von Ansätzen, die von seiner Kernmethodik abgeleitet wurden. Wie der Name schon sagt, konzentriert sich modellagnostisches Meta-Learning nicht auf eine bestimmte Aufgabe oder KI-Modellarchitektur. Es kann vielmehr für jedes Modell verwendet werden, das durch Gradientenabstieg lernt.

MAML umfasst zwei verschiedene Parameteraktualisierungen für verschiedene FSL-Schulungsaufgaben, p(T). In jeder Trainingsepisode wird eine neue Aufgabe T_i zufällig aus p(T) ausgewählt. Der Gradientenabstieg, der in K Schritten der Größe α durchgeführt wird, wird verwendet, um einen Vektor aufgabenspezifischer Modellparameter (θ'_i) nach jeder Trainingsaufgabe zu optimieren. Über mehrere Trainingsepisoden hinweg wird ein Satz von Metaparametern (θ) optimiert, indem ein Gradientenabstieg in Metaschritten der Größe β auf diese aufgabenspezifischen Parameter θ'_i angewendet wird. Mit anderen Worten: Während beim gewöhnlichen Gradientenabstieg Ableitungen berechnet werden, um die Parameter eines Modells für eine bestimmte Aufgabe zu optimieren, berechnet MAML die Ableitungen der Ableitungen (oder „Ableitungen zweiter Ordnung“), um die Anfangsparameter eines Modells für die nachfolgende aufgabenspezifische Optimierung zu optimieren.

Im Originalartikel heißt es, dass das Ziel darin besteht, „Modellparameter zu finden, die empfindlich auf Änderungen in der Aufgabe reagieren, sodass kleine Änderungen der Parameter zu großen Verbesserungen der Verlustfunktion jeder Aufgabe aus p(T) führen“. Dies bietet ähnliche Vorteile wie das Transfer-Learning, ohne dass große Mengen an gekennzeichneten Daten für das Vortraining benötigt werden.

Zu den vorgeschlagenen Anpassungen an MAML gehören:

First Order MAML (FOMAML): Die Abhängigkeit von MAML von Ableitungen zweiter Ordnung ist rechenintensiv und erfordert viel Arbeitsspeicher. FOMAML vereinfacht den Prozess durch eine Reihe von Annahmen, die eine Metaoptimierung nur unter Verwendung von Ableitungen erster Ordnung ermöglichen.
Reptile: Reptile stellt einen Mittelweg zwischen der Ausgereiftheit von MAML und der Einfachheit von FOMAML dar: Es verwendet Ableitungen erster Ordnung, implementiert aber einzigartige Regeln dafür, wie Parameter aktualisiert werden.⁴
Optimierung der Schrittgröße: Varianten wie Meta-SGD⁵ und Alpha MAML⁶ bieten die Möglichkeit, die Schrittgröße und -richtung für α und β zu optimieren. Ebenso führt MAML++⁷ eine Reihe von Modifikationen ein, um die Stabilität und die Recheneffizienz zu erhöhen.

Lesen Sie den Artikel: „Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks“ (Modellagnostisches Meta-Learning für die schnelle Adaption von Deep Networks)

LTSM-Meta-Learner

Meta-Learning-Ansätze können RNN-basierte Long short-term memory (LSTM)-Netzwerke nutzen, um ein Meta-Learner-Modell zu trainieren und auf diese Weise sowohl kurzfristiges Wissen aus jeder Schulungsaufgabe als auch langfristiges Wissen zu erfassen, das für jede Aufgabe üblich ist. Dieser Meta-Learner wird dann verwendet, um einen Klassifikator für ein neuronales Netz zu trainieren.

Lesen Sie den Artikel: „Optimization as a Model for Few-Shot Learning“ (Optimierung als Modell für Few-Shot-Learning)

Latente Einbettungsoptimierung (LEO)

Anstatt einen eindeutigen Satz von Modell-Metaparametern θ explizit einzurichten und zu aktualisieren, lernt die latente Einbettungsoptimierung eine generative Verteilung von aufgabenspezifischen Modellparametern, ähnlich wie Variational Autoencoder (VAEs), die demselben Zweck dienen. Die Gradientenoptimierung kann dann innerhalb dieses erlernten, niedrigdimensionalen Einbettungsraums durchgeführt werden.

Artikel lesen: „Meta-Learning with Latent Embedding Optimization“ (Meta-Learning mit latenter Einbettungsoptimierung)

Anwendungsfälle für Few-Shot-Learning

Die Anwendungsmöglichkeiten von Few-Shot-Learning-Techniken sind breit gefächert, da viele Branchen und Forschungsbereiche von der Fähigkeit profitieren, schnell und effektiv anhand relativ weniger Beispiele zu lernen.

Computervision

Während viele bekannte FSL-Algorithmen ursprünglich für Bildklassifizierungsaufgaben entwickelt wurden (oder sich dort bewährt haben), kann FSL auch für komplexere Computer-Vision-Probleme verwendet werden.

Obwohl die Objekterkennung ein wesentlich komplexeres Problem ist als die Bildklassifizierung, da Objekte in diesem Fall nicht nur klassifiziert, sondern auch genau lokalisiert werden müssen, setzt sie im Allgemeinen eine Bildklassifizierung voraus. Daher können viele für die Klassifizierung verwendete Ideen für die Erkennung von Few-Shot-Objekten verwendet werden.⁸

Ebenso wurden eine Reihe von Modellarchitekturen für die semantische Few-Shot-Segmentierung vorgeschlagen.⁹

Robotertechnik

FSL kann es Robotern ermöglichen, sich schnell an neue Umgebungen und neue Aufgaben anzupassen, sowohl durch Few-Shot-Klassifizierungsaufgaben¹⁰ als auch durch Reinforcement Learning.¹¹

Verarbeitung natürlicher Sprache

FSL hat vielversprechende Ergebnisse für die Verarbeitung natürlicher Sprache (NLP) gezeigt, insbesondere durch Transfer-Learning: Es ist ein intuitiver Weg, um große Sprachmodelle (LLMs), die anhand eines riesigen Korpus ungekennzeichneter Daten vortrainiert wurden, an spezifische Aufgaben wie Textklassifizierung und Stimmungsanalyse anzupassen, die ein spezifisches kontextuelles Verständnis erfordern können.

Gesundheitswesen

Das Potenzial von FSL, ein Modell schnell an seltene und unbekannte Datenklassen zu gewöhnen, ist besonders vielversprechend für medizinische Bereiche, in denen die Seltenheit bestimmter Erkrankungen oder die für die genaue Kennzeichnung medizinischer Daten (z. B. MRT oder Echokardiographie) erforderlichen Fachkenntnisse die Beschaffung einer großen Anzahl gekennzeichneter Proben extrem erschweren können.

Weiterführende Lösungen

KI-Beratungsleistungen

Stellen Sie sich die Art und Weise, wie Sie mit KI arbeiten, neu vor: Unser vielfältiges, globales Team von mehr als 20.000 KI-Experten kann Ihnen dabei helfen, KI und Automatisierung in Ihrem Unternehmen schnell und sicher zu entwerfen und zu skalieren, indem es mit unserer eigenen IBM watsonx-Technologie und einem offenen Ökosystem von Partnern arbeitet, um jedes KI-Modell in jeder Cloud bereitzustellen, geleitet von Ethik und Vertrauen.

Entdecken Sie unsere IBM KI-Beratungsleistungen

IBM watsonx Assistant

Stellen Sie mit dialogorientierter KI einen konsistenten, intelligenten Kundenservice über alle Kanälen und Kontaktpunkten bereit.

IBM® watsonx Assistant kennenlernen

IBM watsonx.ai

Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.

watsonx.ai erkunden

Ressourcen zum Thema Few-Shot-Learning

Few-Shot-Learning und generative KI

Erfahren Sie mehr über den Aufstieg und die Zukunft der generativen KI – und darüber, wie sich das „Few-Shot-Learning“ in das Gesamtbild einfügt.

Few-Shot-Learning mit multipler Semantik

Aufbauend auf den jüngsten Fortschritten beim Few-Shot-Learning mit zusätzlichen semantischen Informationen zeigen wir, dass weitere Verbesserungen möglich sind, indem wir mehrere und umfassendere Semantiken (Kategoriekennzeichnungen, Attribute und Beschreibungen in natürlicher Sprache) kombinieren.

Tipps zum Schreiben von Prompts für Foundation Models

Ein kurzer Überblick über Prompt-Engineering-Tipps zur Erstellung von Few-Shot- und One-Shot-Prompting für Foundation Models.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden

Buchen Sie eine Live-Demo

Fußnoten

Alle Links befinden sich außerhalb von ibm.com

¹ „An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning“, arXiv, 28. September 2022
² „Meta-Learning with Memory-Augmented Neural Networks“, Proceedings of the 33^rd International Conference on Machine Learning, 19. Juni 2016
³ „Transductive Few-shot Learning with Prototype-based Label Propagation by Iterative Graph Refinement“, Computer Vision Foundation, 23. April 2023
⁴ „Reptile: A scalable meta-learning algorithm“, OpenAI, 7. März 2018
⁵ „Meta-SGD: Learning to Learn Quickly for Few-Shot Learning“, arXiv, 28. September 2017
⁶ „Alpha MAML: Adaptive Model-Agnostic Meta-Learning“, arXiv, 17. Mai 2019
⁷ „How to train your MAML“, arXiv, 5. März 2019
⁸ „Few-Shot Object Detection: A Comprehensive Survey“, arXiv, 15. September 2022
⁹ „Leaderboard: Few-Shot Semantic Segmentation on PASCAL-5i (1-Shot)“, PapersWithCode, Zugriff am: 3. Januar 2024
¹⁰ „Few-Shot Continual Active Learning by a Robot“, arXiv, 12. Oktober 2022
¹¹ „Few-Shot Preference Learning for Human-in-the-Loop RL“, Proceedings of the 6^th Conference on Robot Learning, 2023