Was ist selbstüberwachtes Lernen?

Veröffentlicht: 5. Dezember 2023
Mitwirkende: Dave Bergmann

Selbstüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der unüberwachtes Lernen für Aufgaben verwendet wird, die normalerweise überwachtes Lernen erfordern. Anstatt sich auf gelabelte Datensätze für Überwachungssignale zu verlassen, erzeugen selbstüberwachte Modelle implizite Labels aus unstrukturierten Daten.

Selbstüberwachtes Lernen (SSL) ist besonders nützlich in Bereichen wie Computer Vision und Verarbeitung natürlicher Sprache (NLP), die große Mengen an gelabelten Daten erfordern, um modernste künstliche Intelligenz-Modelle (KI) zu trainieren. Da diese gelabelten Datensätze zeitaufwändig von menschlichen Experten kommentiert werden müssen, kann sich das Sammeln ausreichender Daten als äußerst schwierig erweisen. Selbstüberwachte Ansätze können zeit- und kosteneffizienter sein, da sie das manuelle Labeln von Trainingsdaten teilweise oder vollständig ersetzen.

Um ein Deep-Learning-Modell für Aufgaben zu trainieren, die Genauigkeit erfordern, wie z. B. Klassifizierung oder Regression, muss man in der Lage sein, die Ausgabevorhersagen des Modells für eine bestimmte Eingabe mit den „korrekten“ Vorhersagen für diese Eingabe zu vergleichen; das wird üblicherweise als Ground Truth bezeichnet. Normalerweise dienen manuell gelabelte Trainingsdaten als Ground Truth: Da diese Methode ein direktes menschliches Eingreifen erfordert, wird sie „überwachtes“ Lernen genannt. Beim selbstüberwachten Lernen sind die Aufgaben so konzipiert, dass die „Ground Truth“ aus nicht gelabelten Daten abgeleitet werden kann.

In SSL lassen sich Aufgaben in zwei Kategorien einteilen: Voraufgaben und nachgelagerte Aufgaben.In einer Voraufgabe wird SSL verwendet, um ein KI-System darauf zu trainieren, sinnvolle Darstellungen von unstrukturierten Daten zu lernen. Diese gelernten Repräsentationen können anschließend als Eingabe für eine nachgelagerte Aufgabe verwendet werden, z. B. eine überwachte Lernaufgabe oder eine Verstärkungslernaufgabe. Die Wiederverwendung eines vorab trainierten Modells für eine neue Aufgabe wird als „Transferlernen“ bezeichnet.

Selbstüberwachtes Lernen wird beim Training einer Vielzahl anspruchsvoller Deep-Learning-Architekturen für verschiedene Aufgaben eingesetzt, von transformatorbasierten großen Sprachmodellen (LLMs) wie BERT und GPT über Bildsynthesemodelle wie Variational Autoencoder (VAEs) und Generative Adversial Netzwerke (GANs) bis hin zu Computer-Vision-Modellen wie SimCLR und Momentum Contrast (MoCo).

Schauen Sie sich IBM watsonx.ai näher an

Ein Enterprise Studio der nächsten Generation für KI-Entwickler, um KI-Modelle zu trainieren, zu prüfen, zu optimieren und bereitzustellen.

Ähnliche Inhalte

Newsletter von IBM abonnieren

Selbstüberwachtes Lernen vs. überwachtes Lernen vs. unüberwachtes Lernen

Obwohl das selbstüberwachte Lernen technisch gesehen eine Untergruppe des unüberwachten Lernens ist (da es keine gelabelten Datensätze benötigt), ist es eng mit dem überwachten Lernen verwandt, da es die Leistung anhand einer Ground Truth optimiert.

Diese unvollkommene Übereinstimmung mit den beiden konventionellen Paradigmen des maschinellen Lernens führte dazu, dass die verschiedenen Techniken, die heute unter dem Begriff „selbstüberwachtes Lernen“ zusammengefasst werden, eine eigene Kategorisierung erhielten.

Die Prägung des Begriffs wird häufig Yann LeCun zugeschrieben, dem mit dem Turing-Preis ausgezeichneten Informatiker und Schlüsselfigur in der Entwicklung des Deep Learnings,¹ der es für notwendig erklärte, SSL von wirklich unüberwachtem Lernen (das er als „einen belasteten und verwirrenden Begriff“ bezeichnete) abzugrenzen.² Der Name (und das formale Konzept) haben ihren Ursprung möglicherweise in einer Veröffentlichung von Raina et al. aus dem Jahr 2007 mit dem Titel „Self-taught learning: Transfer learning from unlabeled data“.³ Einige Frameworks für maschinelles Lernen, die heute als SSL gelten, wie z. B. Autoencoder, sind einige Jahre älter als der Begriff selbst.

Selbstüberwachtes Lernen vs. unüberwachtes Lernen

Selbstüberwachtes Lernen ist eine Untergruppe des unüberwachten Lernens: Alle selbstüberwachten Lerntechniken sind unüberwachtes Lernen, aber die meisten unüberwachten Lernverfahren beinhalten keine Selbstüberwachung.

Weder unüberwachtes noch selbstüberwachtes Lernen verwenden Labels im Trainingsprozess: Beide Methoden lernen intrinsische Korrelationen und Muster in nicht gelabelten Daten statt extern auferlegter Korrelationen aus annotierten Datensätzen. Abgesehen von diesem gemeinsamen Fokus auf nicht gelabelte Daten spiegeln die Unterschiede zwischen selbstüberwachtem und unüberwachtem Lernen weitgehend die Unterschiede zwischen unüberwachtem und überwachtem Lernen wider.

Probleme, bei denen konventionelles unüberwachtes Lernen verwendet wird, messen die Ergebnisse nicht anhand einer bereits bekannten Ground Truth. Beispielsweise könnte ein unbeaufsichtigtes Assoziationsmodell eine E-Commerce-Empfehlungsmaschine antreiben, indem es lernt, welche Produkte häufig zusammen gekauft werden. Der Nutzen des Modells ergibt sich nicht aus der Replikation menschlicher Vorhersagen, sondern aus der Entdeckung von Korrelationen, die für menschliche Beobachter nicht offensichtlich sind.

Beim selbstüberwachten Lernen werden die Ergebnisse anhand einer Ground Truth gemessen, auch wenn diese implizit aus nicht gelabelten Trainingsdaten abgeleitet wird. Wie überwachte Modelle werden auch selbstüberwachte Modelle mit Hilfe einer Verlustfunktion optimiert: ein Algorithmus, der die Divergenz („Verlust“) zwischen der Ground Truth und den Modellvorhersagen misst. Während des Trainings verwenden selbstüberwachte Modelle den Gradientenabstieg während der Backpropagation, um die Modellgewichte so anzupassen, dass der Verlust minimiert wird (und damit die Genauigkeit verbessert).

Aufgrund dieses entscheidenden Unterschieds konzentrieren sich die beiden Methoden auf unterschiedliche Anwendungsfälle: Unüberwachte Modelle werden für Aufgaben wie Clustering, Anomalieerkennung und Dimensionalitätsreduzierung verwendet, die keine Verlustfunktion erfordern, wohingegen selbstüberwachte Modelle für Klassifizierungs- und Regressionsaufgaben verwendet werden, die für überwachtes Lernen typisch sind.

Selbstüberwachtes Lernen vs. überwachtes Lernen

Während überwachtes und selbstüberwachtes Lernen weitgehend für dieselben Aufgaben verwendet werden und beide eine Ground Truth benötigen, um die Leistung über eine Verlustfunktion zu optimieren, werden selbstüberwachte Modelle auf nicht gelabelten Daten trainiert. Beim überwachten Lernen hingegen werden gelabelte Datensätze für das Training benötigt.

Gelabelte Datensätze sind beim Modelltraining äußerst effektiv: Durch das Kommentieren von Trainingsdaten kann ein Modell direkt die wichtigsten Merkmale und Korrelationen lernen, die diese Anmerkungen widerspiegeln. Durch die Minimierung der Divergenz zwischen den Modellvorhersagen und den von Hand kommentierten „Vorhersagen“ menschlicher Experten während des Trainings lernen überwachte Modelle, korrekte Schlüsse über neue (nicht gelabelte) Eingabedaten zu ziehen.

Obwohl modernste überwachte Ansätze eine hohe Genauigkeit erzielen können, ist die Annotation großer Mengen von Trainingsdaten oft ein Engpass im Forschungsprozess. Beispielsweise muss bei Computer-Vision-Aufgaben wie der Instanzsegmentierung, die pixelspezifische Vorhersagen erfordern, die Annotation von Trainingsdaten auf Pixelebene erfolgen. Dies ist kostspielig und zeitaufwändig und schränkt sowohl die Menge der verfügbaren Trainingsdaten als auch die Möglichkeiten der meisten Unternehmen und Forscher ein, diese zu erhalten.

Im Gegensatz dazu verwenden selbstüberwachte Modelle verschiedene Techniken, um Überwachungssignale aus der Struktur der Eingabedaten selbst zu gewinnen und verzichten dabei völlig auf Labels. So können beispielsweise Teile eines Satzes nach dem Zufallsprinzip ausgeblendet (oder „maskiert“) und ein selbstüberwachtes Modell mit der Vorhersage der ausgeblendeten Wörter beauftragt werden, wobei der ursprüngliche (nicht gelabelte) Satz als Ground Truth dient.

Selbstüberwachtes vs. halbüberwachtes Lernen

Im Gegensatz zum selbstüberwachten Lernen, bei dem keine von Menschen gelabelten Daten verwendet werden, werden beim halbüberwachten Lernen sowohl gelabelte als auch nicht gelabelte Daten zum Trainieren von Modellen verwendet. Ein halbüberwachtes Modell könnte beispielsweise eine kleine Menge gelabelter Datenpunkte verwenden, um daraus die Labels für den Rest eines ansonsten nicht gelabelten Trainingsdatensatzes abzuleiten, und dann den gesamten Datensatz für das überwachte Lernen verwenden. Obwohl die Beweggründe ähnlich sind, da beide Ansätze den Bedarf an großen gelabelten Datensätzen beim überwachten Lernen umgehen, unterscheiden sich ihre jeweiligen Methoden.

Wie funktioniert selbstüberwachtes Lernen?

Selbstüberwachte Lernaufgaben sind so konzipiert, dass eine Verlustfunktion nicht gelabelte Eingabedaten als Ground Truth verwenden kann. Dadurch kann das Modell genaue, aussagekräftige Darstellungen der Eingabedaten ohne Labels oder Anmerkungen lernen.

Das Ziel des selbstüberwachten Lernens besteht darin, den Bedarf an gelabelten Daten zu minimieren oder ganz zu ersetzen. Während gelabelte Daten relativ knapp und teuer sind, sind nicht gelabelte Daten reichlich vorhanden und relativ günstig. Im Wesentlichen liefern Voraufgaben „Pseudo-Labels“ aus nicht gelabelten Daten. Die Bezeichnung „Voraufgabe“ impliziert, dass die Trainingsaufgabe nicht (notwendigerweise) für sich selbst nützlich ist: Sie ist nur deshalb nützlich, weil sie Modellen Datenrepräsentationen beibringt, die für die Zwecke von nachgelagerten Aufgaben nützlich sind. Voraufgaben werden daher oft auch als Repräsentationslernen bezeichnet.

Modelle, die mit SSL trainiert wurden, werden oft für ihre spezifischen nachgelagerten Aufgaben fein abgestimmt: Diese Feinabstimmung beinhaltet oft echtes überwachtes Lernen (wenn auch mit einem Bruchteil der gelabelten Daten, die zum Trainieren eines Modells mit überwachtem Lernen allein benötigt werden).

Obwohl die SSL-Disziplin sowohl in der Methodik als auch in den Anwendungsfällen vielfältig ist, verwenden die mit SSL trainierten Modelle eine (oder beide) von zwei maschinellen Lerntechniken: vorausschauendes Lernen und kontrastives Lernen.

Vorausschauendes Lernen

Vorausschauende Lernmethoden, die auch als autoassoziatives selbstüberwachtes Lernen bezeichnet werden, trainieren ein Modell, das einen Teil eines einzelnen Datenmusters vorhersagt, wenn es Informationen über dessen andere Teile enthält. Modelle, die mit diesen Methoden trainiert wurden, sind in der Regel generative und nicht diskriminative Modelle.

Yann LeCun hat selbstüberwachte Methoden als eine strukturierte Praxis des „Ausfüllens der Lücken“ beschrieben. Im Großen und Ganzen beschrieb er den Prozess des Lernens sinnvoller Darstellungen aus der zugrundeliegenden Struktur von nicht gelabelten Daten mit einfachen Worten: „Tun Sie so, als gäbe es einen Teil der Eingabe, den Sie nicht kennen, und sagen Sie diesen voraus.“⁴ Zum Beispiel:

Sagen Sie einen beliebigen Teil der Eingabe aus einem anderen Teil voraus
Sagen Sie die Zukunft aus der Vergangenheit voraus
Sagen Sie das Maskierte aus dem Sichtbarenvoraus
Prognostizieren Sie alle verdeckten Teile aus allen verfügbaren Teilen

Selbstüberwachte Systeme, die auf diesen Philosophien aufbauen, nutzen häufig bestimmte Modellarchitekturen und Trainingstechniken.

Autoencoder
Ein Autoencoder ist ein neuronales Netzwerk, das darauf trainiert ist, Eingabedaten zu komprimieren (oder zu kodieren) und dann die ursprüngliche Eingabe mithilfe dieser komprimierten Darstellung zu rekonstruieren (oder zu dekodieren). Sie sind darauf trainiert, Rekonstruktionsfehler zu minimieren, indem sie die ursprüngliche Eingabe selbst als Ground Truth verwenden.

Obwohl die Architekturen von Autoencodern variieren, führen sie in der Regel eine Form von Engpass ein: Während die Daten das Encodernetzwerk durchlaufen, wird die Datenkapazität jeder Schicht schrittweise reduziert. Dadurch wird das Netz gezwungen, nur die wichtigsten Muster zu lernen, die in den Eingabedaten verborgen sind – die so genannten latenten Variablen oder der latente Raum – sodass das Decoder-Netz die ursprüngliche Eingabe trotz der nun geringeren Informationen genau rekonstruieren kann.

Durch Änderungen an diesem Framework können Autoencoder nützliche Merkmale und Funktionen erlernen.

Denoising-Autoencoder erhalten teilweise verfälschte Eingabedaten und werden darauf trainiert, die ursprüngliche Eingabe wiederherzustellen, indem sie unbrauchbare Informationen („Rauschen“) entfernen. Dies reduziert die Überanpassung und macht solche Modelle für Aufgaben wie das Wiederherstellen beschädigter Eingabebilder und Audiodaten nützlich.
Während die meisten Autoencoder diskrete Modelle des latenten Raums kodieren, lernen Variational Autoencoder (VAEs) kontinuierliche Modelle des latenten Raums: Durch die Kodierung latenter Repräsentationen von Eingabedaten als Wahrscheinlichkeitsverteilung kann der Decoder neue Daten durch die Entnahme eines Zufallsvektors aus dieser Verteilung erzeugen.

Autoregression
Autoregressive Modelle verwenden früheres Verhalten, um zukünftiges Verhalten vorherzusagen. Sie gehen von der Logik aus, dass alle Daten mit einer inhärenten sequentiellen Ordnung – wie Sprache, Audio oder Video – mit Regression modelliert werden können.

Autoregressionsalgorithmen modellieren Zeitreihen-Daten mit den Werten des/der vorherigen Zeitschritte/s, um den Wert des folgenden Zeitschritts vorherzusagen. Bei herkömmlichen Regressionsalgorithmen hingegen, wie sie beispielsweise für die lineare Regression verwendet werden, werden unabhängige Variablen verwendet, um einen Zielwert vorherzusagen (oder abhängige Variable). Bei der Autoregression sind die unabhängige und die abhängige Variable im Wesentlichen ein und dasselbe: Man spricht von einer Autoregression, da die Regression an der Variablen selbst durchgeführt wird.

Autoregression wird vor allem in kausalen Sprachmodellen wie GPT, LLaMa und Claude-Familien von LLMs verwendet, die bei Aufgaben wie Textgenerierung und Fragenbeantwortung hervorstechen. Beim Vortraining erhalten die Sprachmodelle den Anfang von Beispielsätzen aus nicht gelabelten Trainingsdaten und sollen das nächste Wort vorhersagen, wobei das „tatsächliche“ nächste Wort des Beispielsatzes als Ground Truth dient.

Maskierung
Eine weitere selbstüberwachte Lernmethode besteht darin, bestimmte Teile einer nicht gelabelten Datenprobe zu maskieren und Modelle mit der Vorhersage oder Rekonstruktion der fehlenden Informationen zu beauftragen. Verlustfunktionen verwenden die ursprüngliche Eingabe (vor der Maskierung) als Ground Truth. Maskierte Autoencoder sind beispielsweise eine Umkehrung der Denoising-Autoencoder: Sie lernen, fehlende Informationen vorherzusagen und wiederherzustellen, anstatt fremde Informationen zu entfernen.

Maskierung wird auch beim Training von maskierten Sprachmodellen verwendet: In Beispielsätzen werden zufällige Wörter ausgelassen und die Modelle werden darauf trainiert, diese zu ersetzen. Obwohl maskierte Sprachmodelle wie BERT (und die vielen darauf aufbauenden Modelle wie BART und RoBERTa) bei der Texterzeugung oft weniger geschickt sind als autoregressive Modelle, haben sie den Vorteil, dass sie bidirektional sind: Sie können nicht nur das nächste Wort vorhersagen, sondern auch frühere oder später in einer Sequenz gefundene Wörter. Dadurch eignen sie sich gut für Aufgaben, die ein ausgeprägtes kontextuelles Verständnis erfordern, wie Übersetzung, Zusammenfassung und Suche.

Vorhersage einer inhärenten Beziehung
Die Vorhersage einer inhärenten Beziehung trainiert ein Modell, um sein Verständnis einer Datenprobe beizubehalten, nachdem diese auf irgendeine Weise transformiert wurde. Zum Beispiel das Drehen eines Eingabebilds und die Beauftragung eines Modells mit der Vorhersage des Änderungsgrades und der Drehrichtung relativ zur ursprünglichen Eingabe.⁵

Kontrastives Lernen

Kontrastive, selbstüberwachte Lernmethoden stellen Modellen mehrere Datenproben zur Verfügung und geben ihnen die Aufgabe, die Beziehung zwischen ihnen vorherzusagen. Bei den mit diesen Methoden trainierten Modellen handelt es sich in der Regel um diskriminative Modelle und nicht um generative Modelle.

Kontrastive Modelle arbeiten in der Regel mit Daten-Daten-Paaren für das Training, während autoassoziative Modelle mit Daten-Label-Paaren arbeiten (bei denen das Label selbst aus den Daten generiert wird). Anhand dieser Daten-Daten-Paare trainieren kontrastive Methoden Modelle, um zwischen ähnlichen und unähnlichen Dingen zu unterscheiden.

Diese Paare werden häufig durch Datenerweiterung erstellt, indem verschiedene Arten von Transformationen oder Störungen auf nicht gelabelte Daten angewendet werden, um neue Instanzen oder erweiterte Ansichten zu erstellen. Zu den gängigen Erweiterungstechniken für Bilddaten gehören beispielsweise Rotation, zufälliges Zuschneiden, Spiegeln, Rauschen, Filtern und Färben. Durch die Datenerweiterung wird die Datenvariabilität erhöht und das Modell verschiedenen Perspektiven ausgesetzt. Dadurch wird sichergestellt, dass das Modell lernt, aussagekräftige, dynamische semantische Darstellungen zu erfassen.

Instanzunterscheidung
Auf Instanzunterscheidung basierende Modelle gestalten das Training als eine Reihe von binären Klassifizierungsaufgaben: Unter Verwendung eines Datenmusters als Ziel (oder „Anker“) werden andere Datenmuster als „positiv“ (übereinstimmend) oder „negativ“ (nicht übereinstimmend) eingestuft.

In der Computer Vision beginnen solche Methoden – wie SimCLR oder MoCo – typischerweise mit einer Reihe nicht gelabelter Rohbilder und wenden eine zufällige Kombination von Transformationen an, um Paare (oder Sätze) erweiterter Bildbeispiele zu generieren. Jedes dieser erweiterten Bilder wird dann in eine Vektordarstellung kodiert, und eine kontrastive Verlustfunktion wird verwendet, um den Unterschied in den Vektordarstellungen zwischen positiven Übereinstimmungen – Paaren von erweiterten Bildern, die von demselben Originalbild abgeleitet sind – zu minimieren und den Unterschied zwischen negativen Übereinstimmungen zu maximieren.

Instanzunterscheidungsmethoden trainieren daher Modelle, um Repräsentationen verschiedener Kategorien zu erlernen, die dank zufälliger Datenergänzungen robust gegenüber trivialen Variationen (wie Farbe, Perspektive oder sichtbare Teile in einem bestimmten Bild) sind. Diese Darstellungen lassen sich daher sehr gut auf nachgelagerte Aufgaben verallgemeinern.

Nicht-kontrastives Lernen
Etwas kontraintuitiv bezieht sich „nicht-kontrastives Lernen“ auf eine Methode, die eng mit dem kontrastiven Lernen verwandt ist (und nicht, wie man vermuten könnte, ein allgemeiner Sammelbegriff für Methoden, die nicht zum kontrastiven Lernen gehören). Die Modelle werden nur mit positiven Paaren trainiert und lernen, den Unterschied zwischen ihren Darstellungen zu minimieren – daher sind sie nicht-kontrastiv.

Im Vergleich zum kontrastiven Lernen sind nicht-kontrastive Ansätze relativ einfach: Da sie nur mit positiven Mustern arbeiten, benötigen sie kleinere Batch-Größen für Trainingsepochen und keine Speicherbank für negative Muster. Dies spart Speicher und Rechenkosten während des Vortrainings.

Nicht-kontrastive Modelle wie Bootstrap Your Own Latent (BYOL)⁶ und Barlow Twins⁷ haben Ergebnisse erzielt, die mit denen von kontrastiven und rein überwachten Ergebnissen konkurrieren.

Multimodales Lernen
Bei gegebenen Datenpunkten unterschiedlicher Art – Modalitäten – können kontrastive Methoden die Zuordnung zwischen diesen Modalitäten lernen. Contrastive Language-Image Pre-training (CLIP) beispielsweise trainiert gemeinsam einen Bild- und einen Text-Encoder, um vorherzusagen, welche Bildunterschrift zu welchem Bild passt, wobei Millionen von leicht verfügbaren, nicht gelabelten (Bild, Text) Paaren aus dem Internet verwendet werden. Nach dem Vortraining wird die Verarbeitung natürlicher Sprache (NLP) verwendet, um die im Training erlernten visuellen Konzepte zu referenzieren (oder sogar um neue visuelle Konzepte zu beschreiben), was CLIP-trainierte Modelle für eine Vielzahl von Anwendungen zum Transferlernen äußerst nützlich macht.

Kontrastives Lernen wurde auch verwendet, um Ausrichtungen zwischen Video und Text,⁸ Video und Audio,⁹ sowie Sprache und Text zu lernen.¹⁰

Anwendungsfälle für selbstüberwachtes Lernen

Selbstüberwachtes Lernen wurde zum Vortraining von künstlichen Intelligenz-Modellen für ein breites Spektrum von Aufgaben und Disziplinen verwendet.

Selbstüberwachtes Lernen für NLP

Innerhalb eines Jahres nach seiner Einführung im Jahr 2018 implementierte Google das maskierte BERT-Sprachmodell als NLP-Engine für gerankte und angezeigte Snippets in der Suche.¹¹ Seit 2023 nutzt Google weiterhin die BERT-Architektur, um seine realen Suchanwendungen zu betreiben.¹²

Die LLaMa-, GPT- und Claude-Familien von LLMs sind autoregressive Sprachmodelle. GPT3 wurde in erster Linie mit selbstüberwachtem Lernen trainiert; InstructGPT und die nachfolgenden GPT-3.5-Modelle, die zum Start von ChatGPT verwendet wurden, haben die vortrainierten Modelle mit Hilfe von Verstärkungslernen mit menschlichem Feedback (RLHF) feinabgestimmt.

Autoregressive Modelle werden auch für audiobasierte NLP-Aufgaben wie Speech to Text- und Text to Speech-Modelle wie WaveNet verwendet.¹³ Facebook (Meta) verwendet wav2vec für die Spracherkennung, wobei zwei übereinander gestapelte, tiefe konvolutionale neuronale Netze verwendet werden, um die rohe Audioeingabe in eine Vektordarstellung zu übertragen. Beim selbstüberwachten Vortraining werden diese Vektoren als Eingaben für vorausschauende Aufgaben verwendet.¹⁴

Selbstüberwachtes Lernen für Computer Vision

Selbstüberwachtes Lernen ist eine schnell wachsende Untergruppe von Deep-Learning-Techniken für die medizinische Bildgebung, für die fachmännisch kommentierte Bilder relativ selten sind. In PubMed, Scopus und ArXiv stiegen die Veröffentlichungen, die sich auf die Verwendung von SSL für die Klassifizierung medizinischer Bilder beziehen, von 2019 bis 2021 um über 1.000 Prozent.¹⁵

SSL-basierte Methoden können häufig die Genauigkeit von Modellen, die mit vollständig überwachten Methoden geschult wurden, abgleichen oder übertreffen. Beispielsweise übertraf das ursprüngliche MoCo überwachte Modelle bei sieben Objekterkennungs- und Bildsegmentierungsaufgaben in den PASCAL-, VOC- und COCO-Datensätzen.¹⁶ Bei einer Feinabstimmung mit gelabelten Daten für nur ein Prozent aller Trainingsdaten haben mit SSL vorab trainierte Modelle eine Genauigkeit von über 80 Prozent im ImageNet-Datensatz erreicht. Dies kann mit der Leistung von Benchmark-Modellen für überwachtes Lernen wie ResNet50 mithalten.

Die Fähigkeit, eine erfolgreiche Objekterkennung und Bildsegmentierung trotz Änderungen der Objektausrichtung aufrechtzuerhalten, ist für viele Robotertechnikaufgaben unerlässlich. Selbstüberwachtes Lernen wurde als wirksame Methode vorgeschlagen, um Computer-Vision-Modellen beizubringen, Rotationen zu verstehen, ohne zeitintensive Sammlung gelabelter Daten.^{17 18}

Maskierung wurde verwendet, um Modellen beizubringen, die Bewegungsbahn in Videos zu verstehen.¹⁹

Selbstüberwachtes Lernen für Bildverarbeitung und Bildsynthese

Denoising-Autoencoder sind ein wesentlicher Bestandteil beim Training einiger hochmoderner Bildsynthesemodelle wie Stable Diffusion.²⁰

Die autoregressive Modellierung wurde für die Bildsynthese in Modellen wie PixelRNN und PixelCNN verwendet. Der Erfolg von PixelCNN führte dazu, dass es zur Grundlage für WaveNet wurde.

Konvolutionale Autoencoder werden für eine Vielzahl von Bildverarbeitungsaufgaben wie Inpainting und die Einfärbung von Graustufenbildern verwendet.

Variational Autoencoder (VAEs) sind ein wichtiges Werkzeug für die Bildsynthese. Das ursprüngliche DALL-E-Modell von OpenAI verwendete eine VAE zum Generieren von Bildern. Sowohl DALL-E 1 als auch DALL-E 2 verwenden CLIP für die Übersetzung natürlicher Spracheingaben in visuelle Informationen.²¹

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.

watsonx.ai erkunden

Ressourcen für selbstüberwachtes Lernen

Erfahren Sie mehr darüber, wie selbstüberwachtes Lernen in die größere Welt des maschinellen Lernens passt.

Setzen Sie Ihre Reise zum maschinellen Lernen fort

Erfahren Sie mehr darüber, welche Art von maschinellem Lernmodell für Sie am besten geeignet ist: überwachtes oder unüberwachtes Lernen?

Was ist überwachtes Lernen?

Lernen Sie, wie überwachtes Lernen funktioniert und wie Sie damit hochpräzise maschinelle Lernmodelle für eine Vielzahl von Aufgaben erstellen können.

Was ist unüberwachtes Lernen?

Erfahren Sie, wie unüberwachtes Lernen funktioniert und wie es zum Untersuchen und Clustern von Daten für verschiedene Anwendungsfälle verwendet werden kann.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden

Buchen Sie eine Live-Demo

Fußnoten

Alle Links befinden sich außerhalb von ibm.com

¹ „Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award,“ Association for Computing Machinery, 27.3.2019
² Facebook, Yann LeCun, 30.4.2019
³ „Self-taught learning: transfer learning from unlabeled data,“ Proceedings of the 24th international conference on machine learning, 20.6.2007
⁴ Lecture: Energy based models and self-supervised learning, YouTube, 2020 hochgeladen
⁵ „Learning to see by moving,“ arXiv, 14.9.2015
⁶ „Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning,“ arXiv, 10.9.2020
⁷ „Barlow Twins: Self-Supervised Learning via Redunancy Reduction,“ arXiv, 14.6.2021
⁸ „VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding,“ arXiv, 1.10.2021⁹ „Active Contrasting Learning of Audio-Visual Video Representations,“ Proceedings of the International Conference on Learning Representations, 2021
¹⁰ „Cross-modal Contrastive Learning for Speech Translation,“ arXiv, 5.5.2022
¹¹ „Understanding searches better than ever before,“ Google, 25.10.2019
¹² „End-to-End Query Term Weighting,“ Google, 2023¹³ „WaveNet: A Generative Model for Raw Audio,“ arXiv, 19.9.2016
¹⁴ „Wave2vec: State-of-the-art speech recognition through self-supervision,“ Meta, 19.9.2019
¹⁵ „Self-supervised learning for medical image classification: a systematic review and implementation guidelines,“ Nature, 26.4.2023
¹⁶ „Momentum Contrast for Unsupervised Visual Representation Learning,“ arXiv, 13.11.2019 (zuletzt überarbeitet am 23.3.2020)¹⁷ „Deep Projective Rotation Estimation through Relative Supervision,“ arXiv, 21.11.2022
¹⁸ „Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms,“ arXiv, 29.5.2021
¹⁹ „Masked Motion Encoding for Self-Supervised Video Representation Learning,“ The Computer Vision Foundation, Oktober 2022
²⁰ „High-Resolution Image Synthesis with Latent Diffusion Models,“ arXiv, 20.12.2021 (zuletzt überarbeitet am 13.4.2022)
²¹ „DALL-E: Creating images from text,“ OpenAI, 5.1.2021