Was ist AutoML?

Automatisiertes maschinelles Lernen (AutoML) ist in den letzten Jahren zu einem Trendthema in der industriellen und akademischen Forschung im Bereich der künstlichen Intelligenz (KI) geworden. AutoML bietet vielversprechende Lösungen für KI in regulierten Branchen und liefert erklärbare und reproduzierbare Ergebnisse. AutoML ermöglicht einen besseren Zugang zur KI-Entwicklung für diejenigen, die nicht über den theoretischen Hintergrund verfügen, der derzeit für eine Rolle in der Datenwissenschaft erforderlich ist.

Jeder Schritt in der aktuellen prototypischen Data-Science-Pipeline, z. B. Datenvorverarbeitung, Feature-Engineering und Hyperparameter-Optimierung, muss heute manuell von Experten für maschinelles Lernen (ML) durchgeführt werden. Im Vergleich dazu ermöglicht die Einführung von AutoML einen einfacheren Entwicklungsprozess, bei dem mit wenigen Zeilen der notwendige Code für die Entwicklung eines maschinellen Lernmodells erzeugt werden kann.

Man kann sich AutoML – unabhängig davon, ob es um die Erstellung von Klassifikatoren oder das Training von Regressionen geht – als ein verallgemeinertes Suchkonzept vorstellen, mit spezialisierten Suchalgorithmen für die Suche nach optimalen Lösungen für jede Komponente der ML-Pipeline. Durch den Aufbau eines Systems, das die Automatisierung von nur drei Schlüsselelementen der Automatisierung ermöglicht – dem Feature-Engineering, der Hyperparameter-Optimierung und der neuronalen Architektursuche –, verspricht AutoML eine Zukunft, in der demokratisiertes maschinelles Lernen zur Realität geworden ist.

watsonx.ai kennenlernen

Einfaches Trainieren, Validieren, Abstimmen und Bereitstellen von Grundlagenmodellen und Modellen für das maschinelle Lernen

Arten von AutoML

In einer Data-Science-Pipeline gibt es viele Schritte, die ein Datenwissenschafts-Team durchlaufen muss, um ein Vorhersagemodell zu erstellen. Selbst erfahrene Teams von Datenwissenschaftlern und ML-Ingenieuren profitieren dabei von der erhöhten Geschwindigkeit und Transparenz, die AutoML bietet. Ein Datenwissenschaftler muss mit einer Hypothese beginnen, den richtigen Datensatz sammeln, einige Datenvisualisierungen ausprobieren, zusätzliche Funktionen entwickeln, um alle verfügbaren Signale zu nutzen, und ein Modell mit Hyperparametern trainieren (Link befindet sich außerhalb von IBM). Für hochmodernes Deep Learning muss er außerdem die optimale Architektur für ein Deep Neural Network konzipieren – und dies hoffentlich auf einem Grafikprozessor, falls verfügbar.

Automatisiertes Feature-Engineering

Ein Datenfeature ist ein Teil der Eingabedaten für ein maschinelles Lernmodell. Feature-Engineering bezieht sich auf den Transformationsprozess, bei dem ein Datenwissenschaftler neue Informationen aus vorhandenen Daten ableitet, und ist einer der wichtigsten wertschöpfenden Prozesse in einem ML-Workflow. Gute Features sind der Unterschied zwischen einem Modell mit akzeptabler Leistung und einem absoluten Hochleistungsmodell. Diese mathematischen Transformationen von Rohdaten werden in das Modell eingelesen und dienen als Herzstück des maschinellen Lernprozesses. Automatisiertes Feature-Engineering (AFE) (PDF 1,7 MB) (Link befindet sich außerhalb von IBM) ist der Prozess, den Raum der realisierbaren Kombinationen von Features auf mechanistische – nicht manuelle – Weise zu erkunden.

Manuelles Feature-Engineering ähnelt moderner Alchemie und ist mit einem hohen Zeitaufwand verbunden: Der Bau eines einzelnen Features kann oft Stunden dauern, und die Anzahl der Features, die für eine absolute Mindestgenauigkeit erforderlich sind, geschweige denn eine für die Produktion geeignete Genauigkeit, kann dabei in die Hunderte gehen. Durch Automatisierung der Erkundung eines Feature-Raums reduziert AutoML die Zeit, die ein Data-Science-Team mit dieser Phase verbringen muss, von mehreren Tagen auf nur wenige Minuten.

Die Reduzierung des Zeitaufwands für die manuelle Intervention durch einen Datenwissenschaftler ist nicht der einzige Vorteil des automatisierten Feature Engineering. Automatisch generierte Features sind oft eindeutig interpretierbar. Und genau diese Erklärbarkeit ist in streng regulierten Branchen wie z. B. dem Gesundheits- oder Finanzwesen wichtig, weil sie die Barrieren für die Einführung von KI durch Interpretierbarkeit senkt. Darüber hinaus profitiert ein Datenwissenschaftler oder Analyst von der Klarheit dieser Features, da sie die hochwertigen Modelle noch überzeugender und umsetzbarer machen. Automatisiert generierte Features bieten weiterhin auch das Potenzial, neue KPIs für ein Unternehmen zu identifizieren, die ein Unternehmen nachverfolgen und auf die es reagieren kann. Sobald ein Datenwissenschaftler das Feature-Engineering abgeschlossen hat, muss er seine Modelle durch eine strategische Feature-Auswahl optimieren.

Automatisierte Hyperparameter-Optimierung

Hyperparameter sind ein Teil von Algorithmen des maschinellen Lernens, die am besten als Ansatzpunkte für die Feinabstimmung der Modellleistung verstanden werden – obwohl auch geringfügige Anpassungen oft große Auswirkungen haben können. Bei der datenwissenschaftlichen Modellierung in kleinem Maßstab können Hyperparameter einfach und unkompliziert von Hand festgelegt und durch einfaches Ausprobieren optimiert werden.

Bei Deep Learning-Anwendungen steigt die Anzahl der Hyperparameter jedoch exponentiell an, und eine manuelle und dennoch zeitnahe Optimierung übersteigt ganz einfach die Möglichkeiten eines Data-Science-Teams. Automatisierte Hyperparameteroptimierung (HPO) (Link befindet sich außerhalb von IBM) entlastet Teams von der aufwändigen Aufgabe, den gesamten Ereignisraum für Hyperparameter zu erforschen und zu optimieren, und ermöglicht es ihnen stattdessen, Features und Modelle zu iterieren und mit ihnen zu experimentieren.

Eine weitere Stärke der Automatisierung des maschinellen Lernprozesses besteht darin, dass sich Datenwissenschaftler nun auf das Warum der Modellerstellung und nicht auf das Wie konzentrieren können.Angesichts der extrem großen Datenmengen, die vielen Unternehmen heute zur Verfügung stehen, und der überwältigenden Anzahl von Fragen, die mit diesen Daten beantwortet werden können, kann ein Analytics-Team sich nun darauf konzentrieren, welche Aspekte des Modells es optimieren sollte, wie zum Beispiel das klassische Problem der Minimierung von falsch-negativen Werten in medizinischen Tests.

Neuronale Architektursuche (NAS)

Der komplexeste und zeitaufwändigste Prozess im Deep Learning ist die Erstellung der neuronalen Architektur. Data-Science-Teams verbringen viel Zeit damit, die geeigneten Schichten und Lernraten auszuwählen, die am Ende oft nur für die Gewichtungen im Modell gelten, wie auch in vielen Sprachmodellen. Neuronale Architektursuche (NAS) (Link befindet sich außerhalb von IBM) wurde als „Verwendung neuronaler Netze zum Entwerfen neuronaler Netze“ beschrieben und ist einer der Bereiche, bei denen ML am offensichtlichsten von der Automatisierung profitiert.

NAS-Suchen beginnen mit der Auswahl der Architekturen. Das Ergebnis des NAS-Prozesses wird durch die Metrik, an der jede Architektur gemessen wird, bestimmt. Es gibt mehrere gängige Algorithmen, die bei der Suche nach neuronalen Architekturen verwendet werden können. Wenn die potenzielle Anzahl der Architekturen gering ist, kann die Auswahl für den Test nach dem Zufallsprinzip getroffen werden. Gradientenbasierte Ansätze, bei denen der diskrete Suchraum in eine kontinuierliche Darstellung umgewandelt wird, haben sich hierbei als sehr effektiv erwiesen. Data-Science-Teams können außerdem evolutionäre Algorithmen ausprobieren, bei denen Architekturen nach dem Zufallsprinzip bewertet und Änderungen langsam angewendet werden. Dieser Ansatz erlaubt es, untergeordnete Architekturen zu propagieren, die erfolgreicher sind, während diejenigen, die nicht erfolgreich sind, eliminiert werden.

Die Suche nach neuronalen Architekturen ist eines der Schlüsselelemente von AutoML, das die KI zu demokratisieren verspricht. Diese Suchvorgänge sind jedoch oft mit sehr hohem Energieverbrauch und CO2-Emissionen verbunden. Eine Untersuchung dieser Wechselwirkungen ist noch nicht erfolgt, und die Optimierung der ökologischen Kosten ist ein fortwährendes Thema in NAS-Ansätzen.

Zugehörige Links

Datenwissenschaft

Maschinelles Lernen

AutoAI

Strategien zur Verwendung von AutoML

Automatisiertes maschinelles Lernen klingt wie ein technisches Allheilmittel, mit dem ein Unternehmen teure Datenwissenschaftler billig ersetzen kann. Tatsächlich jedoch erfordert sein Einsatz in einem Unternehmen intelligente Strategien. Denn Datenwissenschaftler spielen auch im automatisierten maschinellen Lernen eine wichtige Rolle: Sie konzipieren Experimente, deuten Forschungsergebnisse in geschäftsrelevante Ergebnisse um und begleiten den gesamten Lebenszyklus ihrer maschinellen Lernmodelle. Wie können also funktionsübergreifende Teams AutoML nutzen, ihre Arbeitszeit optimal zu nutzen und die Zeit bis zur Wertschöpfung durch ihre Modelle zu verkürzen?

Der optimale Workflow für die Einbindung von AutoML-APIs ist ein Workflow, der AutoML zur Parallelisierung von Workloads und zur Verkürzung der für manuelle Aufgaben aufgewandten Zeit nutzt. Anstatt ganze Tage mit der Optimierung von Hyperparametern zu verbringen, könnte ein Datenwissenschaftler stattdessen diesen Prozess für mehrere Modelltypen gleichzeitig automatisieren und anschließend testen, welches Modell am leistungsfähigsten war.

Darüber hinaus gibt es AutoML-Funktionen, die es Teammitgliedern unterschiedlicher Kenntnisstufen ermöglichen, jetzt zur Data-Science-Pipeline beizutragen. Ein Datenanalyst ohne Python-Kenntnisse könnte z. B. ein Toolkit wie AutoAI auf Watson Studio nutzen, um ein Vorhersagemodell anhand der Daten zu trainieren, die er selbst per Abfrage extrahieren kann. Mit AutoML kann ein Datenanalyst nun Daten vorverarbeiten, eine Pipeline für maschinelles Lernen aufbauen und ein vollständig trainiertes Modell erstellen, mit dem er seine eigenen Hypothesen validieren kann, ohne dass hierbei ein komplettes Data-Science-Team involviert sein muss.

AutoML und IBM Research

Forscher und Entwickler bei IBM tragen zum weiteren Wachstum und zur zukünftigen Entwicklung von AutoML bei. Die laufende Produktentwicklung mit AutoAI auf IBM Watson und die Arbeit der IBM Forscher auf Lale (Link befindet sich außerhalb von IBM), einer automatisierten Open-Source-Data-Science-Bibliothek, sind nur einige der Möglichkeiten, mit denen IBM zur Entwicklung der nächsten Generation von KI-Ansätzen beiträgt. Obwohl Lale ein Open-Source-Projekt ist, bildet es den Kern vieler AutoAI-Funktionen.

Für Data-Science-Teams, die mit Python als Kern ihres ML-Stacks arbeiten, bietet Lale eine halbautomatische Bibliothek, die sich nahtlos in scikit-learn-Pipelines (Link befindet sich außerhalb von IBM) einfügt – im Gegensatz zu auto-sklearn (Link befindet sich außerhalb von IBM) oder einer Bibliothek wie TPOT (Link befindet sich außerhalb von IBM). Lale geht hinsichtlich Automatisierung, Korrektheitsprüfungen und Interoperabilität über scikit-learn hinaus. Obwohl es auf dem scikit-learn-Konzept basiert, verfügt Lale über eine wachsende Anzahl von Transformatoren und Operatoren aus anderen Python-Bibliotheken und aus Bibliotheken in Sprachen wie z. B. Java und R.

Weiterführende Lösungen

AutoAI

Erstellen und trainieren Sie schnell hochwertige Vorhersagemodelle. Vereinfachen Sie die Verwaltung über den gesamten KI-Lebenszyklus hinweg.

AutoAI entdecken

IBM Watson Studio

Erstellen und skalieren Sie vertrauenswürdige KI – in jeder Cloud. Automatisieren Sie den KI-Lebenszyklus für ModelOps.

IBM® Watson Studio kennenlernen

Machen Sie den nächsten Schritt

Watson Studio und AutoAI helfen Data-Science-Teams dabei, den gesamten KI-/ML-Lebenszyklus schnell zu automatisieren. Teams können mithilfe ihrer Vorhersagefunktionen die Zeit bis zur Markteinführung verkürzen, indem sie mit einer Reihe von Prototypen für Machine-Learning-Modelle beginnen. AutoAI in Watson Studio vereinfacht das automatisierte Feature-Engineering, die automatisierte Hyperparameteroptimierung und die Modellauswahl für maschinelles Lernen. Unterstützen Sie Ihre Data-Science- und Analytics-Teams dabei, ihre Hypothesen schnell zu bewerten, damit diese, sobald die Teams die Gültigkeit ihrer Modelle zertifiziert haben, sofort für die Verwendung in QA- oder Produktionskontexten bereitgestellt werden können.

IBM Watson Studio kennenlernen