Startseite topics Halbüberwachtes Lernen Was ist halbüberwachtes Lernen?
Entdecken Sie IBM watsonx.ai
Ein Raster aus Punkten in verschiedenen Farben und Größen

Veröffentlicht: 12. Dezember 2023
Mitwirkende: Dave Bergmann

Was ist halbüberwachtes Lernen?

Halbüberwachtes Lernen ist ein Zweig des maschinellen Lernens, der überwachtes und unüberwachtes Lernen kombiniert, wobei sowohl gelabelte als auch nicht gelabelte Daten verwendet werden, um künstliche Intelligenz-Modelle (KI) für Klassifizierungs- und Regressionsaufgaben zu trainieren.

Obwohl halbüberwachtes Lernen im Allgemeinen für dieselben Anwendungsfälle eingesetzt wird, in denen man sonst überwachte Lernmethoden verwenden würde, zeichnet es sich durch verschiedene Techniken aus, die zusätzlich zu den für das herkömmliche überwachte Lernen erforderlichen gelabelten Daten auch nicht gelabelte Daten in das Modelltraining einbeziehen.

Halbüberwachte Lernmethoden sind besonders relevant in Situationen, in denen die Beschaffung einer ausreichenden Menge an gelabelten Daten untragbar schwierig oder teuer ist, große Mengen nicht gelabelter Daten jedoch relativ einfach zu beschaffen sind. In solchen Szenarien bieten weder vollständig überwachte noch unüberwachte Lernmethoden geeignete Lösungen.

Gelabelte Daten und maschinelles Lernen

Für das Training von KI-Modellen für Vorhersageaufgaben wie Klassifizierung oder Regression werden in der Regel gelabelte Daten benötigt: kommentierte Datenpunkte, die den notwendigen Kontext liefern und die korrekten Vorhersagen (Ausgaben) für jede Eingabeprobe demonstrieren. Während des Trainings misst eine Verlustfunktion die Differenz (Verlust) zwischen den Vorhersagen des Modells für eine bestimmte Eingabe und der „Ground Truth“, die durch das Label dieser Eingabe gegeben ist. Modelle lernen aus diesen gelabelten Beispielen, indem sie Techniken wie den Gradientenabstieg verwenden, der die Modellgewichte aktualisiert, um Verluste zu minimieren. Da dieser maschinelle Lernprozess den Menschen aktiv einbezieht, wird er „überwachtes“ Lernen genannt.

Das richtige Labeln von Daten wird für komplexe KI-Aufgaben immer arbeitsintensiver. Um beispielsweise ein Bildklassifizierungsmodell zu trainieren, um zwischen Autos und Motorrädern zu unterscheiden, müssen Hunderte (wenn nicht Tausende) von Trainingsbildern mit „Auto“ oder „Motorrad“ gelabelt werden. Für eine detailliertere Computer-Vision- Aufgabe, wie die Objekterkennung, müssen Menschen nicht nur die Objekte, die jedes Bild enthält, mit Anmerkungen versehen, sondern auch, wo sich jedes Objekt befindet. Für noch detailliertere Aufgaben wie die Bildsegmentierung müssen Datenlabels bestimmte Pixel-für-Pixel-Grenzen verschiedener Bildsegmente für jedes Bild mit Anmerkungen versehen.

Das Labeln von Daten kann daher für bestimmte Anwendungsfälle besonders mühsam sein. In spezielleren Anwendungsfällen des maschinellen Lernens, wie der Arzneimittelentdeckung, der genetischen Sequenzierung oder der Proteinklassifizierung, ist die Annotation von Daten nicht nur extrem zeitaufwändig, sondern erfordert auch sehr spezifisches Fachwissen.

Halbüberwachtes Lernen bietet eine Möglichkeit, den größtmöglichen Nutzen aus einer knappen Menge an gelabelten Daten zu ziehen und gleichzeitig relativ viele nicht gelabelte Daten zu nutzen. 

Schauen Sie sich IBM watsonx.ai näher an

Ein Enterprise Studio der nächsten Generation für KI-Entwickler, um KI-Modelle zu trainieren, zu prüfen, zu optimieren und bereitzustellen.

Ähnliche Inhalte

Newsletter von IBM abonnieren

Halbüberwachtes Lernen vs. überwachtes Lernen vs. unüberwachtes Lernen

Halbüberwachtes Lernen kann als eine Kombination oder ein Mittelweg zwischen überwachtem und unüberwachtem Lernen betrachtet werden.

Halbüberwachtes Lernen vs. überwachtes Lernen

Der Hauptunterschied zwischen halb- und vollüberwachtem maschinellem Lernen besteht darin, dass letzteres nur mit vollständig gelabelten Datensätzen trainiert werden kann, während ersteres sowohl gelabelte als auch nicht gelabelte Datenproben im Trainingsprozess verwendet. Halbüberwachte Lerntechniken modifizieren oder ergänzen einen überwachten Algorithmus – in diesem Zusammenhang der „Basislerner“ genannt – um Informationen aus nicht gelabelten Beispielen einzubeziehen. Gelabelte Datenpunkte werden verwendet, um die Vorhersagen des Basislerners zu untermauern und dem Lernproblem eine Struktur zu geben (z. B. wie viele Klassen es gibt und welche grundlegenden Eigenschaften sie haben).

Das Ziel beim Training eines jeden Klassifizierungsmodells ist es, eine genaue Entscheidungsgrenze zu erlernen: eine Linie oder, bei Daten mit mehr als zwei Dimensionen, eine „Oberfläche“ oder Hyperebene – trennt Datenpunkte einer Klassifizierungskategorie von Datenpunkten, die zu einer anderen Klassifizierungskategorie gehören. Obwohl ein vollüberwachtes Klassifizierungsmodell technisch gesehen eine Entscheidungsgrenze mit nur wenigen gelabelten Datenpunkten erlernen kann, ist die Verallgemeinerbarkeit auf reale Beispiele unter Umständen nicht gegeben, so dass die Vorhersagen des Modells unzuverlässig sind.

Der klassische „Halbmond“-Datensatz veranschaulicht die Unzulänglichkeiten überwachter Modelle, die sich auf zu wenige gelabelte Datenpunkte stützen. Obwohl die „richtige“ Entscheidungsgrenze jeden der beiden Halbmonde trennen würde, ist es wahrscheinlich, dass ein überwachtes Lernmodell die wenigen verfügbaren gelabelten Datenpunkte überanpasst. Die nicht gelabelten Datenpunkte vermitteln eindeutig hilfreichen Kontext, aber ein herkömmlicher überwachter Algorithmus kann nicht gelabelte Daten nicht verarbeiten.

Halbüberwachtes Lernen vs. unüberwachtes Lernen

Im Gegensatz zum halbüberwachten (und vollüberwachten) Lernen werden bei unüberwachten Lernalgorithmen weder gelabelte Daten noch Verlustfunktionen verwendet. Unüberwachtes Lernen vermeidet jeglichen „Ground Truth“-Kontext, anhand dessen die Modellgenauigkeit gemessen und optimiert werden kann.

Ein zunehmend verbreiteter halbüberwachter Ansatz, insbesondere für große Sprachmodelle, ist das „Vortraining“ von Modellen durch unüberwachte Aufgaben, bei denen das Modell sinnvolle Repräsentationen von nicht gelabelten Datensätzen lernen muss. Wenn solche Aufgaben eine „Ground Truth“ und eine Verlustfunktion beinhalten (ohne manuelle Datenkommentierung), werden sie als selbstüberwachtes Lernen bezeichnet. Nach einer anschließenden „überwachten Feinabstimmung“ mit einer kleinen Menge gelabelter Daten können vortrainierte Modelle oft eine Leistung erreichen, die mit vollüberwachten Modellen vergleichbar ist.

Methoden des unüberwachten Lernens können zwar in vielen Szenarien nützlich sein, aber aufgrund des fehlenden Kontexts sind sie für eine eigenständige Klassifizierung schlecht geeignet. Nehmen wir beispielsweise den Fall, wie ein typischer Clustering-Algorithmus, bei dem Datenpunkte basierend auf ihrer Nähe zueinander in eine vorgegebene Anzahl von Clustern gruppiert werden, den Halbmond-Datensatz behandeln würde.

Halbüberwachtes Lernen vs. selbstüberwachtes Lernen

Sowohl halb- als auch selbstüberwachtes Lernen zielen darauf ab, den Bedarf an großen Mengen an gelabelten Daten zu umgehen – aber während halbüberwachtes Lernen einige gelabelte Daten beinhaltet, sind selbstüberwachte Lernmethoden wie Autoencoder wirklich unüberwacht.

Während überwachtes (und halbüberwachtes) Lernen eine externe „Ground Truth“ in Form von gelabelten Daten erfordert, leiten selbstüberwachte Lernaufgaben die Ground Truth aus der zugrundeliegenden Struktur von nicht gelabelten Proben ab. Viele selbstüberwachte Aufgaben sind für sich genommen nicht nützlich: Ihr Nutzen liegt darin, dass sie Modellen Datenrepräsentationen beibringen, die für nachfolgende „nachgelagerte Aufgaben“ nützlich sind. Daher werden sie oft als „Voraufgaben“ bezeichnet.

In Kombination mit überwachten nachgelagerten Aufgaben sind selbstüberwachte Voraufgaben somit Teil eines halbüberwachten Lernprozesses: eine Lernmethode, die sowohl gelabelte als auch nicht gelabelte Daten für das Modelltraining verwendet.

Wie funktioniert halbüberwachtes Lernen?

Halbüberwachtes Lernen beruht auf bestimmten Annahmen über die nicht gelabelten Daten, die zum Trainieren des Modells verwendet werden, und über die Art und Weise, wie sich Datenpunkte aus verschiedenen Klassen zueinander verhalten.

Eine notwendige Bedingung für halbüberwachtes Lernen (SSL) ist, dass die nicht gelabelten Beispiele, die für das Modelltraining verwendet werden, für die Aufgabe, für die das Modell trainiert wird, relevant sein müssen. Formaler ausgedrückt erfordert SSL, dass die Verteilung p(x) der Eingabedaten Informationen über die posteriore Verteilung p(y|x) enthalten muss: Das heißt, die bedingte Wahrscheinlichkeit, dass ein gegebener Datenpunkt (x) zu einer bestimmten Klasse (y) gehört. Wenn man also zum Beispiel nicht gelabelte Daten verwendet, um einen Bildklassifikator zu trainieren, der zwischen Bildern von Katzen und Bildern von Hunden unterscheiden kann, sollte der Trainingsdatensatz sowohl Bilder von Katzen als auch von Hunden enthalten – und Bilder von Pferden und Motorrädern sind nicht hilfreich.

Eine 2018 durchgeführte Studie zu Algorithmen des halbüberwachten Lernens ergab zwar, dass „eine Erhöhung der Menge an nicht gelabelten Daten die Leistung von SSL-Verfahren tendenziell verbessert“, aber auch, dass „das Hinzufügen von nicht gelabelten Daten aus einem nicht passenden Klassensatz Leistung im Vergleich zur Verwendung keinerlei nicht gelabelter Daten sogar beeinträchtigen kann.“ 1

Die Grundbedingung, dass p(x) eine sinnvolle Beziehung zu p(x|y) hat, führt zu mehreren Annahmen über die Natur dieser Beziehung. Diese Annahmen sind die treibende Kraft hinter den meisten, wenn nicht allen SSL-Methoden: Im Allgemeinen beruht jeder halbüberwachte Lernalgorithmus darauf, dass eine oder mehrere der folgenden Annahmen explizit oder implizit erfüllt sind.

Cluster-Annahme

Die Cluster-Annahme besagt, dass Datenpunkte, die zum selben Clustergehören – eine Gruppe von Datenpunkten, die einander ähnlicher sind als anderen verfügbaren Datenpunkten – auch zur selben Klasse gehören.

Obwohl sie manchmal als eigenständige Annahme betrachtet wird, wurde die Clustering-Annahme von van Engelen und Hoos auch als „eine Verallgemeinerung der anderen Annahmen“ beschrieben.2 Nach dieser Auffassung hängt die Bestimmung von Datenpunktclustern davon ab, welcher Begriff von Ähnlichkeit verwendet wird: Die Gleichmäßigkeitsannahme, die Annahme niedriger Dichte und die Mannigfaltigkeitsannahme nutzen jeweils einfach eine andere Definition dessen, was einen „ähnlichen“ Datenpunkt ausmacht.

Gleichmäßigkeitsannahme

Die Gleichmäßigkeitsannahmen besagen, dass, wenn zwei Datenpunkte, x und x', im Eingaberaum – der Menge aller möglichen Werte für x – nahe beieinander liegen, ihre Label y und y' identisch sein sollten.

Diese Annahme, die auch als Kontinuitätsannahme bekannt ist, gilt für die meisten überwachten Lernverfahren: Klassifizierer lernen beispielsweise während des Trainings eine sinnvolle Annäherung (oder „Repräsentation“) an jede relevante Klasse. Sobald sie trainiert sind, bestimmen sie die Klassifizierung neuer Datenpunkte anhand der Repräsentation, der sie am ehesten ähneln.

Im Kontext von SSL hat die Gleichmäßigkeitsannahme den zusätzlichen Vorteil, dass sie transitiv auf nicht gelabelte Daten angewendet wird. Stellen Sie sich ein Szenario mit drei Datenpunkten vor:

  • ein gelabelter Datenpunkt, x1
  • ein nicht gelabelter Datenpunkt, x2, der sich in der Nähe von x1befindet
  • ein weiterer nicht gelabelter Datenpunkt, x3, der sich in der Nähe von x2 befindet, aber nicht in der Nähe von x1

Die Gleichmäßigkeitsannahme besagt, dass x2 dasselbe Label wie x1 haben sollte. Sie sagt uns auch, dass x3 das gleiche Label wie x2 haben sollte. Daher können wir davon ausgehen, dass alle drei Datenpunkte dasselbe Label haben, da das Label von x1 aufgrund der Nähe von x3 zu x2 transitiv auf x3 übertragen wird.

Annahme einer geringen Dichte

Die Annahme der geringen Dichte besagt, dass die Entscheidungsgrenze zwischen den Klassen nicht durch Regionen mit hoher Dichte verlaufen sollte. Anders ausgedrückt: Die Entscheidungsgrenze sollte in einem Bereich liegen, der wenige Datenpunkte enthält.

Die Annahme der geringen Dichte kann als eine Erweiterung der Cluster-Annahme (ein Cluster von Datenpunkten mit hoher Dichte repräsentiert eine Klasse und nicht die Grenze zwischen den Klassen) und der Gleichmäßigkeitsannahme (wenn mehrere Datenpunkte nahe beieinander liegen, sollten sie ein gemeinsames Label haben und somit auf der gleichen Seite der Entscheidungsgrenze liegen) betrachtet werden.

Dieses Diagramm veranschaulicht, wie die Annahmen der Gleichmäßigkeit und der geringen Dichte zu einer weitaus intuitiveren Entscheidungsgrenze führen können, als dies mit überwachten Methoden möglich wäre, die nur die (sehr wenigen) gelabelten Datenpunkte berücksichtigen können.

Mannigfaltigkeitsannahme

Die Mannigfaltigkeitsannahme besagt, dass der höherdimensionale Eingaberaum mehrere niedrigdimensionale Mannigfaltigkeiten umfasst, auf denen alle Datenpunkte liegen, und dass Datenpunkte auf derselben Mannigfaltigkeit dasselbe Label haben.

Stellen Sie sich als intuitives Beispiel ein zu einer Kugel zusammengeknülltes Stück Papier vor. Die Position aller Punkte auf der kugelförmigen Oberfläche kann nur mit dreidimensionalen x-, y-, z- Koordinaten zugeordnet werden. Aber wenn diese zerknitterte Kugel jetzt wieder zu einem Blatt Papier zusammengedrückt wird, können dieselben Punkte jetzt mit zweidimensionalen x,y-Koordinaten abgebildet werden. Dies wird als Dimensionalitätsreduktion bezeichnet und kann mathematisch mit Methoden wie Autoencodern oder Konvolutionen erreicht werden.

Beim maschinellen Lernen entsprechen Dimensionen nicht den bekannten physikalischen Dimensionen, sondern jedem Attribut oder Merkmal von Daten. Beim maschinellen Lernen hat beispielsweise ein kleines RGB-Bild mit einer Größe von 32x32 Pixeln 3.072 Dimensionen: 1.024 Pixel, von denen jeder drei Werte (für Rot, Grün und Blau) hat. Der Vergleich von Datenpunkten mit so vielen Dimensionen ist eine Herausforderung, sowohl wegen der Komplexität und der erforderlichen Rechenressourcen als auch weil der größte Teil dieses hochdimensionalen Raums keine Informationen enthält, die für die jeweilige Aufgabe von Bedeutung sind.

Die Mannigfaltigkeitsannahme besagt, dass, wenn ein Modell die richtige Dimensionalitätsreduktionsfunktion lernt, um irrelevante Informationen zu verwerfen, verteilte Datenpunkte zu einer aussagekräftigeren Darstellung konvergieren, für die die anderen SSL-Annahmen zuverlässiger sind.

Transduktives Lernen

Transduktive Lernmethoden verwenden verfügbare Labels, um Label-Vorhersagen für einen gegebenen Satz von nicht gelabelten Datenpunkten zu erkennen, so dass sie von einem überwachten Basislerner verwendet werden können.

Während induktive Methoden darauf abzielen, einen Klassifikator zu trainieren, der den gesamten (gelabelten und nicht gelabelten) Eingaberaum modellieren kann, zielen transduktive Methoden nur darauf ab, Labelvorhersagen für nicht gelabelte Daten zu liefern. Die Algorithmen, die für das transduktive Lernen verwendet werden, sind weitgehend unabhängig von den Algorithmen, die von dem überwachten Klassifizierungsmodell verwendet werden, das mit diesen neu markierten Daten trainiert werden soll.

Label-Verbreitung

Label-Verbreitung ist ein auf einem Graphen basierender Algorithmus, der Label-Zuweisungen für nicht gelabelte Datenpunkte basierend auf ihrer relativen Nähe zu gelabelten Datenpunkten anhand der Gleichmäßigkeits- und Clusterannahme berechnet.

Die Intuition hinter dem Algorithmus ist, dass man einen vollständig verbundenen Graphen abbilden kann, in dem die Knoten alle verfügbaren Datenpunkte sind, sowohl gelabelte als auch nicht gelabelte. Je näher sich zwei Knoten auf einem ausgewählten Entfernungsmaß befinden, wie z. B. der euklidischen Entfernung (Link befindet sich außerhalb von ibm.com), desto stärker wird die Kante zwischen ihnen im Algorithmus gewichtet. Ausgehend von den gelabelten Datenpunkten werden die Label dann iterativ durch die benachbarten nicht gelabelten Datenpunkte weitergegeben, wobei die Gleichmäßigkeits- und Cluster-Annahmen berücksichtigt werden.

Aktives Lernen

Aktive Lernalgorithmen automatisieren nicht das Labeln von Datenpunkten. Stattdessen werden sie in SSL verwendet, um zu bestimmen, welche nicht gelabelten Proben die hilfreichsten Informationen liefern würden, wenn sie manuell gelabelt werden.3 Der Einsatz von aktivem Lernen in halbüberwachten Umgebungen hat zu vielversprechenden Ergebnissen geführt. So wurde in einer kürzlich durchgeführten Studie festgestellt, dass die Menge der markierten Daten, die für ein effektives Training eines Modells zur semantischen Segmentierung erforderlich ist, mehr als halbiert werden konnte.4

Induktives Lernen

Induktive Methoden des halbüberwachten Lernens zielen darauf ab, ein Klassifizierungs- (oder Regressions-) Modell direkt zu trainieren, wobei sowohl gelabelte als auch nicht gelabelte Daten verwendet werden.

Induktive SSL-Methoden können im Allgemeinen danach unterschieden werden, wie sie nicht gelabelte Daten integrieren: durch einen Pseudo-Labeling-Schritt, einen unbeaufsichtigten Vorverarbeitungsschritt oder durch direkte Einbindung in die Zielfunktion des Modells.

Wrapper-Methoden

Eine relativ einfache Möglichkeit, bestehende überwachte Algorithmen auf eine halbüberwachte Umgebung zu erweitern, besteht darin, das Modell zunächst auf den verfügbaren gelabelten Daten zu trainieren – oder einfach einen geeigneten bereits vorhandenen Klassifikator zu verwenden – und dann Pseudo-Label-Vorhersagen für nicht gelabelte Datenpunkte zu erstellen. Das Modell kann dann erneut trainiert werden, indem sowohl die ursprünglich gelabelten Daten als auch die pseudo-gelabelten Daten verwendet werden, ohne zwischen den beiden zu unterscheiden.

Der Hauptvorteil von Wrapper-Methoden besteht neben ihrer Einfachheit darin, dass sie mit fast allen Arten von überwachten Basislernern kompatibel sind. Die meisten Wrapper-Methoden führen einige Regularisierungstechniken ein, um das Risiko der Verstärkung potenziell ungenauer Pseudo-Label-Vorhersagen zu verringern.
 

Selbsttraining
Selbsttraining ist eine grundlegende Wrapper-Methode. Es erfordert eher probabilistische als deterministische Pseudo-Label-Vorhersagen: z. B. ein Modell, das „85 Prozent Hund, 15 Prozent Katze“ ausgibt, anstatt einfach „Hund“ zu sagen.

Probabilistische Pseudo-Label-Vorhersagen ermöglichen es den Selbstlernalgorithmen, nur Vorhersagen zu akzeptieren, die eine bestimmte Vertrauensschwelle überschreiten, und zwar in einem Prozess, der der Entropieminimierung ähnelt.5 Dieser Prozess kann iterativ durchgeführt werden, um entweder den Pseudoklassifizierungsprozess zu optimieren oder eine bestimmte Anzahl von pseudo-gelabelten Proben zu erreichen.

Co-Training
Co-Training-Methoden erweitern das Konzept des Selbsttrainings, indem mehrere überwachte Basislerner trainiert werden, um Pseudo-Labels zuzuweisen.

Durch die Diversifikation soll die Tendenz verringert werden, schlechte Ausgangsprognosen zu verstärken. Daher ist es wichtig, dass die Vorhersagen der einzelnen Basislerner nicht stark miteinander korrelieren. Ein typischer Ansatz besteht darin, für jeden Klassifikator unterschiedliche Algorithmen zu verwenden. Eine andere Möglichkeit besteht darin, dass sich jeder Klassifikator auf eine andere Teilmenge der Daten konzentriert: bei Videodaten beispielsweise wird ein Basislerner auf visuelle Daten und der andere auf Audiodaten trainiert.

Unüberwachte Vorverarbeitung

Im Gegensatz zu Wrapper-Methoden (und intrinsisch halbüberwachten Algorithmen), die gleichzeitig gelabelte und nicht gelabelte Daten verwenden, nutzen einige SSL-Methoden nicht gelabelte und gelabelte Daten in separaten Phasen: eine unüberwachte Phase der Vorverarbeitung, gefolgt von einer überwachten Phase.

Wie Wrapper-Methoden können solche Techniken im Wesentlichen für jeden überwachten Basislerner verwendet werden. Im Gegensatz zu den Wrapper-Methoden wird das überwachte „Hauptmodell“ jedoch letztlich nur auf ursprünglich (von Menschen kommentierten) gelabelten Datenpunkten trainiert.

Solche Vorverarbeitungstechniken reichen von der Extraktion nützlicher Merkmale aus nicht gelabelten Daten über das Vor-Clustern nicht gelabelter Datenpunkte bis hin zum „Vortraining“, um die Anfangsparameter eines überwachten Modells zu bestimmen (in einem Prozess, der den Voraufgaben beim selbstüberwachten Lernen ähnelt).
 

Cluster-then-Label
Eine einfache halbüberwachte Technik beinhaltet das Clustern aller Datenpunkte (sowohl gelabelte als auch nicht gelabelte) mithilfe eines unbeaufsichtigten Algorithmus. Unter Ausnutzung der Clustering-Annahme können diese Cluster dazu verwendet werden, ein unabhängiges Klassifizierungsmodell zu trainieren – oder, wenn die gelabelten Datenpunkte in einem bestimmten Cluster alle derselben Klasse angehören, die nicht gelabelten Datenpunkte zu pseudo-labeln und ähnlich wie bei Wrapper-Methoden vorzugehen.

Wie das Beispiel der „Halbmonde“ weiter oben in diesem Artikel zeigt, können einfache Methoden (wie K-Nearest-Neighbors) unzureichende Vorhersagen liefern. Verfeinerte Clustering-Algorithmen wie DBSCAN (das die Annahme der geringen Dichte umsetzt)6 haben eine höhere Zuverlässigkeit erreicht.

Vortraining und Merkmalsextraktion
Unüberwachtes (oder selbstüberwachtes) Vortraining ermöglicht es den Modellen, nützliche Repräsentationen des Eingaberaums zu erlernen, wodurch die Menge an gelabelten Daten reduziert wird, die für die Feinabstimmung eines Modells mit überwachtem Lernen erforderlich sind.

Ein gängiger Ansatz besteht darin, ein neuronales Netzwerk, oft ein Autoencoder, zu verwenden, um eine Einbettung oder Merkmalsdarstellung der Eingabedaten zu lernen – und diese erlernten Merkmale dann zu verwenden, um einen überwachten Basislerner zu trainieren. Dies bringt oft eine Dimensionsreduktion mit sich und hilft dabei, die Mannigfaltigkeitsannahme zu nutzen.

Intrinsisch halbüberwachte Methoden

Einige SSL-Methoden leiten nicht gelabelte Daten direkt in die Zielfunktion des Basislerners ein, anstatt nicht gelabelte Daten in einem separaten Pseudo-Labeling- oder Vorverarbeitungsschritt zu verarbeiten.
 

Halbüberwachte Support-Vektor-Maschinen
Wenn Datenpunkte verschiedener Kategorien nicht linear trennbar sind – wenn keine gerade Linie die Grenze zwischen den Kategorien sauber und genau definieren kann – ordnendie SVM-Algorithmen (Support Vector Machine) Daten einem höherdimensionalen Merkmalsraum zu, in dem die Kategorien durch einen Hyperplan e getrennt werden können. Bei der Bestimmung dieser Entscheidungsgrenze maximieren SVM-Algorithmen die Marge zwischen der Entscheidungsgrenze und den nächstgelegenen Datenpunkten. Dies wendet praktisch die Annahme der geringen Dichte an.

In einer überwachten Umgebung bestraft eine Regularisierungsbedingung den Algorithmus, wenn gelabelte Datenpunkte auf die falsche Seite der Entscheidungsgrenze fallen. In halbüberwachten SVMs (S3VMs) ist dies für nicht gelabelte Datenpunkte (deren Klassifizierung unbekannt ist) nicht möglich – daher bestrafen S3VMs auch Datenpunkte, die innerhalb der vorgeschriebenen Marge liegen.

Intrinsisch halbüberwachte Deep-Learning-Modelle
Eine Vielzahl von neuronalen Netzwerkarchitekturen wurde für das halbüberwachte Lernen angepasst.
Dies wird durch Hinzufügen oder Ändern der Verlustbedingungen erreicht, die in diesen Architekturen üblicherweise verwendet werden, um die Einbeziehung von nicht gelabelten Datenpunkten in das Training zu ermöglichen.

Zu den vorgeschlagenen halbüberwachten Deep-Learning-Architekturen gehören Leiternetzwerke,7 Pseudo-Ensembles,8 zeitliches Ensembling,9 und ausgewählte Modifikationen an Generative Adversarial Networks (GANS).10

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, prüfen, optimieren und implementieren Sie generative KI, Foundation Models und maschinelles Lernen problemlos und erstellen Sie KI-Anwendungen in einem Bruchteil der Zeit und zu einem Bruchteil der Daten.

watsonx.ai erkunden

IBM watsonx.data

Der IBM® watsonx.data™ Datenspeicher ermöglicht Unternehmen die Skalierung von Analysen und KI mit einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur aufbaut und durch Abfragen, Governance und offene Datenformate für den Zugriff auf und die gemeinsame Nutzung von Daten unterstützt wird. Stellen Sie in wenigen Minuten eine Verbindung zu Ihren Daten her, erhalten Sie schnell zuverlässige Erkenntnisse und senken Sie Ihre Data Warehouse-Kosten.

watsonx.data erkunden
Halbüberwachte Lernressourcen

Kurse und Ressourcen, um mehr über halbüberwachtes Lernen und seine Stellung im größeren Kontext des maschinellen Lernens zu erfahren.

Maschinelles Lernen: Regression und Klassifizierung

Entdecken Sie zwei wichtige Teilbereiche des überwachten maschinellen Lernens: Regression und Klassifizierung. Lernen, wie man Regressionsmodelle trainiert, um kontinuierliche Ergebnisse vorherzusagen, und wie man Vorhersagemodelle trainiert, um kategoriale Ergebnisse zu klassifizieren.

Was ist Daten-Labeln?

Das Hinzufügen einer oder mehrerer Label bietet Kontext, mit dem ein maschinelles Lernmodell genaue Vorhersagen treffen kann. Entdecken Sie die Einsatzmöglichkeiten und Vorteile des Daten-Labels, einschließlich verschiedener Techniken und Best Practices.

Wie nicht gelabelte Daten die Generalisierung im Selbsttraining verbessern

Selbsttraining, ein halbüberwachter Lernalgorithmus, nutzt eine große Menge nicht gelabelter Daten, um das Lernen zu verbessern, wenn die gelabelten Daten begrenzt sind. Diese Arbeit erstellt eine theoretische Analyse für das bekannte iterative Selbsttrainingsparadigma und beweist die Vorteile nicht gelabelter Daten im Training.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo
Fußnoten

1 „Realistic Evaluation of Deep Semi-Supervised Learning Algorithms“ (Link befindet sich außerhalb von ibm.com), arXiv, 17.6.2019
2 „A survey on semi-supervised learning“ ( Link befindet sich außerhalb von ibm.com), Springer, 15.11.2019
3Transductive active learning – A new semi-supervised learning approach based on iteratively refined generative models to capture structure in data“ (Link befindet sich außerhalb von ibm.com), Information Sciences (Volume 293), 18.9.2014
4 „Semantic Segmentation with Active Semi-Supervised Learning“ (Link befindet sich außerhalb von ibm.com), arXiv, 16.10.2022
5 „Semi-supervised learning by Entropy Minimization“ (Link befindet sich außerhalb von ibm.com), Advances in Neural Information Processing Systems 17, 2004
6 „Density-based semi-supervised clustering“ (Link befindet sich außerhalb von ibm.com), Data Mining and Knowledge Discovery, November 2010
7 „Semi-Supervised Learning with Ladder Networks“ (Link befindet sich außerhalb von ibm.com), arXiv, 24.11.2015
8 „Learning with Pseudo-Ensembles“ (Link befindet sich außerhalb von ibm.com), arXiv, 16.12.2014
9 „Temporal Ensembling for Semi-Supervised Learning“ (Link befindet sich außerhalb von ibm,com), arXiv, 15.3.2017
10 „Improved Techniques for Training GANs“ (Link befindet sich außerhalb von ibm.com), arXiv, 10.6.2016