Startseite topics supervised learning Was ist überwachtes Lernen?
Überwachtes Lernen mit watsonx.ai anwenden Abonnieren Sie KI-Updates
Illustration mit Collage von Cloud-Piktogrammen, Tortendiagramm, Grafikpiktogrammen zu folgenden Themen
Was ist überwachtes Lernen?

Beim überwachten Lernen, auch als überwachtes maschinelles Lernen bezeichnet, handelt es sich um eine Unterkategorie von Maschinellem Lernen und Künstlicher Intelligenz. Es wird durch die Verwendung von gekennzeichneten Datensätzen definiert, um Algorithmen zu trainieren, die Daten klassifizieren oder Ergebnisse genau vorhersagen können.

Wenn Eingabedaten in das Modell eingegeben werden, passt es seine Gewichtung an, bis das Modell entsprechend ausgerichtet ist, was im Rahmen der Kreuzvalidierung erfolgt. Überwachtes Lernen hilft Unternehmen dabei, eine Vielzahl realer Probleme im großen Maßstab zu lösen, z. B. das Einordnen von Spam in einem anderen Ordner als dem Posteingang. Es kann verwendet werden, um besonders genaue Modelle für maschinelles Lernen zu erstellen.

Warum KI-Governance eine geschäftliche Notwendigkeit für die Skalierung von KI in Unternehmen ist

Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.

Ähnliche Inhalte

Registrieren und IDC-Bericht lesen

So funktioniert überwachtes Lernen

Beim überwachten Lernen wird ein Trainingssatz verwendet, der den Modellen beibringt, den gewünschten Output zu erzielen. Dieser Trainings-Datensatz enthält Eingaben und korrekte Ausgaben, die dafür sorgen, dass das Modell im Laufe der Zeit dazu lernt. Der Algorithmus misst seine Genauigkeit durch die Verlustfunktion und passt sich so lange an, bis ein Fehler ausreichend minimiert wurde.

Überwachtes Lernen kann bei der Datengewinnung in zwei Problemkategorien unterteilt werden: Klassifizierung und Regression:

  • Bei der Klassifizierung werden Testdaten mithilfe eines Algorithmus präzise bestimmten Kategorien zugewiesen. Sie erkennt bestimmte Entitäten innerhalb des Datensatzes und versucht, Schlussfolgerungen darüber zu ziehen, wie diese Entitäten gekennzeichnet oder definiert werden sollen. Übliche Klassifikationsalgorithmen sind lineare Klassifikatoren, Support Vector Machines (SVM), Decision Trees, K-Nearest Neighbor und Random Forest, die im Folgenden näher beschrieben werden.
  • Die Regression dient dazu, das Verhältnis zwischen abhängigen und unabhängigen Variablen zu verstehen. Sie wird häufig angewendet, um Prognosen zu erstellen, beispielsweise für den Umsatz eines bestimmten Unternehmens. Lineare Regressionlogistische Regression und polynomiale Regression sind beliebte Regressionsalgorithmen.
Überwachte Lernalgorithmen

In überwachten maschinellen Lernprozessen werden verschiedene Algorithmen und Berechnungstechniken verwendet. Nachfolgend finden Sie ein paar kurze Erläuterungen zu einigen der am häufigsten verwendeten Lernmethoden, die normalerweise mithilfe von Programmen wie R oder Python berechnet werden:

  • Neuronale Netze : Neuronale Netze werden in erster Linie für Deep-Learning-Algorithmen eingesetzt und verarbeiten die eingegebenen Trainingsdaten, indem sie die Vernetzung des menschlichen Gehirns durch Knotenschichten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichtungen, einem Bias (Schwellenwert) und einer Ausgabe. Wenn dieser Ausgabewert einen bestimmten Schwellenwert überschreitet, wird der Knoten „ausgelöst“ oder aktiviert und Daten an die nächste Schicht im Netz übergeben. Neuronale Netze lernen aus Anpassungen basierend auf der Verlustfunktion durch den Prozess des Gradientenabstiegs. Wenn die Kostenfunktion bei oder nahe Null liegt, können Sie sich auf die Genauigkeit des Modells verlassen.
  • Naïve Bayes: Naïve Bayes ist ein Klassifizierungsansatz, der das Prinzip der konditionalen Unabhängigkeit der Klasse aus dem Bayes Theorem einsetzt. Das bedeutet, dass das Vorhandensein eines Merkmals keinen Einfluss auf das Vorhandensein eines anderen Merkmals in Bezug auf die Wahrscheinlichkeit eines bestimmten Ergebnisses hat, und dass jeder Prädiktor eine gleiche Wirkung auf dieses Ergebnis hat. Es gibt drei Arten von Naïve Bayes Klassifizierungen: Multinomial Naïve Bayes, Bernoulli Naïve Bayes und Gaußsche Naïve Bayes. Diese Technik wird hauptsächlich in Textklassifizierungs-, Spam-Identifikations- und Empfehlungssystemen verwendet.
  • Lineare Regression: Die lineare Regression wird verwendet, um die Beziehung zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen zu ermitteln, und wird in der Regel genutzt, um Vorhersagen über zukünftige Ergebnisse zu treffen. Wenn es nur eine unabhängige Variable und eine abhängige Variable gibt, spricht man von einer einfachen linearen Regression. Wenn die Anzahl der unabhängigen Variablen zunimmt, spricht man von multipler linearer Regression. Bei jeder Art von linearer Regression wird versucht, eine Linie der besten Anpassung zu zeichnen, die mit der Methode der kleinsten Quadrate berechnet wird. Im Gegensatz zu anderen Regressionsmodellen ist diese Linie jedoch gerade, wenn sie in ein Diagramm eingezeichnet wird.
  • Logistische Regression: Während die lineare Regression bei kontinuierlichen abhängigen Variablen eingesetzt wird, verwendet man die logistische Regression, wenn die abhängige Variable kategorisch ist, d. h. sie verfügt über binäre Ausgaben wie „wahr“ und „falsch“ oder „ja“ und „nein“. Beide Regressionsmodelle versuchen zwar, das Verhältnis zwischen Dateneingaben nachzuvollziehen, aber die logistische Regression wird hauptsächlich verwendet, um binäre Klassifizierungsprobleme wie die Erkennung von Spam zu lösen.
  • Support Vector Machines (SVM): Eine Support Vector Machine ist ein beliebtes überwachtes Lernmodell, das von Vladimir Vapnik entwickelt wurde und sowohl für die Datenklassifizierung als auch für die Regression verwendet wird. Sie wird jedoch in der Regel für Klassifizierungsprobleme eingesetzt, indem eine Hyperebene mit maximalem Abstand zwischen zwei Datenpunkten konstruiert wird. Diese Hyperebene wird als Entscheidungsgrenze bezeichnet und trennt die Klassen von Datenpunkten (z. B. Orangen und Äpfel) auf beiden Seiten der Ebene.
  • K-Nearest Neighbor: K-Nearest Neighbor, auch als KNN-Algorithmus bekannt, ist ein nichtparametrischer Algorithmus, der Datenpunkte basierend auf ihrer Nähe und Verbindung zu anderen verfügbaren Daten klassifiziert. Dieser Algorithmus geht davon aus, dass ähnliche Datenpunkte nahe beieinander gefunden werden können. Daher wird versucht, den Abstand zwischen Datenpunkten zu berechnen, in der Regel durch die euklidische Entfernung, und dann wird eine Kategorie basierend auf der häufigsten Kategorie oder dem häufigsten Durchschnitt zugewiesen. Aufgrund seiner Benutzerfreundlichkeit und der geringen Berechnungszeit bevorzugen Datenwissenschaftler diesen Algorithmus. Mit zunehmendem Testdatensatz verlängert sich jedoch die Verarbeitungszeit, weshalb er für Klassifizierungsaufgaben weniger attraktiv ist. KNN wird typischerweise für Empfehlungsmaschinen und Bilderkennung verwendet.
  • Random Forest: Random Forest ist ein weiterer flexibler Algorithmus für überwachtes maschinelles Lernen, der sowohl für Klassifizierungs- als auch für Regressionszwecke verwendet wird. Das „Forest“ (Englisch für Wald) verweist auf eine Ansammlung unkorrelierter „Decision Trees“ (frei übersetzt als Entscheidungsbäume), die zusammengeführt werden, um die Varianz zu reduzieren und genauere Datenvorhersagen zu erstellen.

 

Unüberwachtes vs. überwachtes vs. halbüberwachtes Lernen

Unüberwachtes maschinelles Lernen und überwachtes maschinelles Lernen werden häufig in einem Satz genannt. Im Gegensatz zu überwachtem Lernen verwendet unüberwachtes Lernen ungekennzeichnete Daten. Anhand dieser Daten werden Muster ermittelt, die bei der Lösung von Cluster- oder Zuordnungsproblemen helfen. Dies ist besonders nützlich, wenn Fachexperten sich über gemeinsame Eigenschaften innerhalb eines Datensatzes nicht sicher sind. Gängige Clustering-Algorithmen sind hierarchische, k-Means- und Gaußsche Mischungsmodelle.

Von halbüberwachtem Lernen sprechen wir, wenn nur ein Teil der gegebenen Eingabedaten beschriftet wurde. Unüberwachtes und halbüberwachtes Lernen können attraktivere Alternativen darstellen, da es zeitaufwändig und kostspielig sein kann, sich auf Fachwissen zu verlassen, um Daten für überwachtes Lernen angemessen zu kennzeichnen.

Einen umfassenden Einblick in die Unterschiede zwischen diesen Ansätzen finden Sie unter „Überwachtes vs. unüberwachtes Lernen: Was ist der Unterschied?

Beispiele für überwachtes Lernen

Modelle für überwachtes Lernen können verwendet werden, um eine Reihe von Geschäftsanwendungen zu erstellen und weiterzuentwickeln, zum Beispiel:

  • Bild- und Objekterkennung: Überwachte Lernalgorithmen können verwendet werden, um Objekte aus Videos oder Bildern zu lokalisieren, zu isolieren und zu kategorisieren. Das ist besonders nützlich, wenn sie auf verschiedene Computer-Vision-Techniken und Bildanalysen angewendet werden.
  • Prädiktive Analysen: Ein weit verbreiteter Anwendungsfall für überwachte Lernmodelle besteht in der Erstellung von prädiktiven Analysesystemen, um umfassende Einblicke in verschiedene Geschäftsdatenpunkte zu erhalten. Auf diese Weise können Unternehmen bestimmte Ergebnisse auf der Grundlage einer bestimmten Ausgabevariablen antizipieren, was Führungskräften dabei hilft, Entscheidungen zu begründen oder zugunsten des Unternehmens umzuschwenken.
  • Analyse der Kundenstimmung: Mithilfe überwachter Algorithmen des maschinellen Lernens können Unternehmen mit sehr geringem menschlichem Eingreifen wichtige Informationen aus großen Datenmengen extrahieren und klassifizieren – darunter Kontext, Emotionen und Absichten. Dies kann unglaublich nützlich sein, um ein besseres Verständnis der Kundeninteraktionen zu erlangen, und zur Verbesserung der Markenbindung genutzt werden.
  • Spam-Erkennung: Die Spam-Erkennung ist ein weiteres Beispiel für ein überwachtes Lernmodell. Mithilfe überwachter Klassifizierungsalgorithmen können Unternehmen Datenbanken trainieren, um Muster oder Anomalien in neuen Daten zu erkennen und Spam- und Nicht-Spam-Korrespondenzen effektiv zu organisieren.
Herausforderungen des überwachten Lernens

Obwohl überwachtes Lernen Unternehmen Vorteile wie umfassende Dateneinblicke und verbesserte Automatisierung bieten kann, gibt es einige Herausforderungen beim Aufbau nachhaltiger Modelle für überwachtes Lernen. Im Folgenden sind einige dieser Herausforderungen aufgeführt:

  • Für die genaue Strukturierung überwachter Lernmodelle ist ein gewisses Maß an Fachwissen erforderlich.
  • Das Training überwachter Lernmodelle kann sehr zeitintensiv sein.
  • Bei Datensätzen ist die Wahrscheinlichkeit menschlicher Fehler höher, was dazu führt, dass Algorithmen falsche Dinge erlernen.
  • Im Gegensatz zu unüberwachten Lernmodellen kann überwachtes Lernen keine Daten selbst gruppieren oder klassifizieren.
Weiterführende Lösungen
IBM® Watson Studio

Erstellen und skalieren Sie vertrauenswürdige KI in jeder Cloud. Automatisieren Sie den KI-Lebenszyklus für ModelOps.

Erkunden Sie IBM Watson Studio
IBM Cloud Pak for Data

Verbinden Sie überall die richtigen Daten zur richtigen Zeit mit den richtigen Personen.

Cloud Pak for Data kennenlernen
IBM Cloud-Lösungen

Hybrid.Offen.Resilient. Ihre Plattform und Ihr Partner für die digitale Transformation.

Cloud-Lösungen kennenlernen
Ressourcen Kostenloses, praxisnahes Lernen für generative KI-Technologien

Lernen Sie die grundlegenden Konzepte für KI und generative KI kennen, einschließlich Prompt Engineering, große Sprachmodelle und die besten Open-Source-Projekte.

Überwachtes vs. unüberwachtes Lernen: Was ist der Unterschied?

In diesem Artikel befassen wir uns mit den Grundlagen zwei datenwissenschaftlicher Ansätze: überwachtes und unüberwachtes Lernen.

Überwachte Lernmodelle

Erfahren Sie mehr über überwachte Lernansätze wie Support Vector Machines und Wahrscheinlichkeitsklassifikatoren

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo