Unterapproximation ist ein Szenario in der Datenwissenschaft, bei dem ein Datenmodell nicht in der Lage ist, die Beziehung zwischen den Eingabe- und Ausgabevariablen korrekt zu erfassen, woraus eine hohe Fehlerrate sowohl bei Trainingsset- als auch unsichtbaren Daten resultiert. Dies tritt auf, wenn ein Modell zu einfach ist, und kann darauf zurückzuführen sein, dass für ein Modell mehr Trainingszeit, mehr Eingabemerkmale oder weniger Regularisierung erforderlich ist. Wie bei der Überapproximation kann ein Modell, wenn es nicht ausreichend angepasst ist, den dominanten Trend innerhalb der Daten nicht feststellen, was zu Trainingsfehlern und einer schlechten Leistung des Modells führt. Wenn ein Modell neue Daten nicht gut verallgemeinern kann, kann es weder für Klassifizierungen noch für Prognosen genutzt werden. Die Verallgemeinerung neuer Daten durch ein Modell ist letztendlich das, was es uns ermöglicht, tagtäglich Algorithmen für maschinelles Lernen zu nutzen, um Prognosen zu erstellen und Daten zu klassifizieren.
Hohe Verzerrung und niedrige Varianz sind gute Indikatoren für Unterapproximation. Da dieses Verhalten bei Nutzung des Trainingsdatenbestands auftritt, sind nicht ausreichend angepasste Modelle in der Regel einfacher zu erkennen als übermäßig angepasste.
Watson Studio
IBM Cloud Pak for Data
Einfach ausgedrückt, ist Überapproximation das Gegenteil von Unterapproximation und tritt auf, wenn das Modell übermäßig trainiert wurde oder zu komplex ist, was zu hohen Fehlerraten bei Testdaten führt. Die übermäßige Anpassung eines Modells ist häufiger als die nicht ausreichende Anpassung. Unterapproximation tritt normalerweise dann auf, wenn Überapproximation durch einen sogenannten „Early Stopping"-Prozess verhindert werden soll.
Wenn nicht ausreichendes Training oder fehlende Komplexität zu Unterapproximation führt, wäre eine logische Strategie, um dies zu vermeiden, eine Verlängerung der Trainingsdauer oder die Aufnahme relevanterer Eingaben. Wenn Sie jedoch das Modell übermäßig trainieren oder diesem zu viele Merkmale hinzufügen, kann es zu einer übermäßigen Anpassung kommen, was zu niedriger Verzerrung, aber hoher Varianz führt (Verzerrung-Varianz-Zielkonflikt). In diesem Szenario stimmt das statistische Modell zu genau mit seinen Trainingsdaten überein, sodass es nicht in der Lage ist, neue Datenpunkte gut zu verallgemeinern. Es ist wichtig zu beachten, dass einige Arten von Modellen anfälliger für Überapproximation sein können als andere, wie z. B. Entscheidungsstrukturen oder KNN.
Es kann schwieriger sein, Überapproximation zu erkennen als Unterapproximation, weil bei einem übermäßig angepassten Modell im Gegensatz zu einem nicht ausreichend angepassten Modell die Trainingsdaten hohe Genauigkeit aufweisen. Zur Beurteilung der Genauigkeit eines Algorithmus wird normalerweise ein Verfahren mit der Bezeichnung k-fache Kreuzvalidierung verwendet.
Bei der k-fachen Kreuzvalidierung werden Daten in k gleich große Untergruppen aufgeteilt, die auch „Folds" (Teilmengen) genannt werden. Eine der k-Teilmengen fungiert als Testmenge, auch bekannt als Holdout-Menge oder Validierungsmenge, und die restlichen Teilmengen trainieren das Modell. Dieser Prozess wiederholt sich, bis jede der Teilmengen als Holdout-Menge verwendet wurde. Nach jeder Auswertung wird ein Ergebnis festgehalten und wenn alle Iterationen abgeschlossen sind, werden die Ergebnisse gemittelt, um die Leistung des Gesamtmodells zu beurteilen.
Das ideale Szenario beim Anpassen eines Modells besteht darin, das Gleichgewicht zwischen Überapproximation und Unterapproximation zu finden. Wenn dieses „Optimum" zwischen beidem ermittelt wird, können Modelle für maschinelles Lernen genaue Prognosen erstellen.
Da Unterapproximation basierend auf dem Trainingsset erkannt werden kann, ist eine bessere Unterstützung bei der Festlegung der dominanten Beziehung zwischen Eingabe- und Ausgabevariablen von Anfang an möglich. Durch Beibehaltung einer angemessenen Modellkomplexität können wir Unterapproximation vermeiden und genauere Prognosen treffen. Im Folgenden sind einige Techniken aufgeführt, mit denen Unterapproximation reduziert werden kann:
Regularisierung wird typischerweise verwendet, um die Varianz mit einem Modell zu reduzieren, indem die Eingabeparameter mit den größeren Koeffizienten benachteiligt werden. Es gibt eine Reihe verschiedener Methoden, wie z. B. L1-Regularisierung, Lasso-Regularisierung, Dropout etc., die dazu beitragen, Störgrößen und Ausreißer in einem Modell zu reduzieren. Wenn die Datenmerkmale jedoch zu einheitlich werden, kann das Modell den dominanten Trend nicht erkennen, was zu Unterapproximation führt. Durch Reduzierung der Regularisierung wird das Modell komplexer und variantenreicher, sodass ein erfolgreiches Training des Modells möglich ist.
Wie bereits erwähnt, kann ein zu frühes Stoppen des Trainings ebenfalls zu einem nicht ausreichend angepassten Modell führen. Dies kann durch Verlängerung der Trainingsdauer vermieden werden. Allerdings ist es wichtig, übermäßiges Training zu erkennen und damit auch übermäßige Anpassung. Es ist wichtig, das Gleichgewicht zwischen den beiden Szenarien zu finden.
Bei jedem Modell werden bestimmte Merkmale verwendet, um ein bestimmtes Ergebnis festzustellen. Wenn es nicht genügend prädiktive Merkmale gibt, sollten weitere Merkmale oder Merkmale mit größerer Bedeutung eingeführt werden. Beispielsweise könnten Sie in einem neuronalen Netz weitere verdeckte Neuronen aufnehmen oder in einem Random Forest weitere Bäume hinzufügen. Dieser Prozess macht das Modell komplexer, was zu besseren Trainingsergebnissen führt.
Erstellen Sie KI-Modelle, führen Sie sie aus und verwalten Sie sie. Bereiten Sie Daten vor und erstellen Sie Modelle in jeder beliebigen Cloud mit Open-Source-Code oder visueller Modellierung. Prognostizieren und optimieren Sie Ihre Ergebnisse.
IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die ein Data Fabric zur Verfügung stellt, um alle Daten für KI und Analytics in jeder Cloud verfügbar zu machen.