Was ist ein Transformator-Modell?

Ein Transformator-Modell ist eine Art Deep-Learning-Modell, das 2017 eingeführt wurde. Diese Modelle haben sich schnell zu einer grundlegenden Komponente der natürlichen Sprachverarbeitung (NLP) entwickelt und wurden auf eine Vielzahl von Aufgaben im Bereich maschinelles Lernen und künstliche Intelligenz angewendet.

Das Modell wurde erstmals 2017 in einem Artikel mit dem Titel „Attention is All You Need“ von Ashish Vaswani, einem Team bei Google Brain, und einer Gruppe von der University of Toronto beschrieben. Die Veröffentlichung dieses Papiers gilt als Wendepunkt in diesem Bereich, wenn man bedenkt, wie weit verbreitet Transformatoren heute in Anwendungen wie dem Training von LLMs sind.

Diese Modelle können Text und Rede nahezu in Echtzeit übersetzen. Beispielsweise gibt es Apps, die es Touristen mittlerweile ermöglichen, auf der Straße mit Einheimischen in deren Muttersprache zu kommunizieren. Sie helfen Forschern, die DNA besser zu verstehen und die Entwicklung von Arzneimitteln zu beschleunigen. Sie können Anomalien erkennen und Betrug in den Bereichen Finanzen und Sicherheit verhindern. Vision-Transformator werden in ähnlicher Weise für Computer-Vision-Aufgaben verwendet.

Das beliebte ChatGPT-Textgenerierungstool von OpenAI nutzt Transformator-Architekturen für Vorhersagen, Zusammenfassungen, Fragen und mehr, da sich das Modell auf die relevantesten Segmente des Eingabetexts konzentrieren kann. Das „GPT“, das in den verschiedenen Versionen des Tools zu sehen ist (z. B. GPT-2, GPT-3) steht für „Generative Pre-Trained Transformator“. Textbasierte generative KI-Tools wie ChatGPT profitieren von Transformator-Modellen, da sie auf der Grundlage großer, komplexer Datensätze das nächste Wort in einer Textsequenz leichter vorhersagen können.

Das BERT-Modell oder Bidirectional Encoder Representations from Transformers basiert auf der Transformator-Architektur. Seit 2019 wurde BERT für fast alle Google-Suchergebnisse in englischer Sprache verwendet und in über 70 anderen Sprachen eingeführt.¹

Der Datenspeicher für KI

Erfahren Sie, wie wirkungsvoll die Integration einer Data-Lakehouse-Strategie in Ihre Datenarchitektur sein kann, einschließlich Verbesserungen zur Skalierung von KI und Möglichkeiten zur Kostenoptimierung.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book zum Thema generative KI

Wie sich Transformator-Modelle unterscheiden

Die wichtigste Neuerung des Transformator-Modells besteht darin, dass man sich nicht auf rekurrente neuronale Netze (RNNs) oder konvolutionale neuronale Netze (CNNs) verlassen muss, also neuronale Netzansätze, die erhebliche Nachteile haben. Transformator verarbeiten Eingabesequenzen parallel, was sie für Training und Inferenz äußerst effizient macht – denn man kann die Dinge nicht einfach beschleunigen, indem man weitere GPUs hinzufügt. Transformator-Modelle benötigen weniger Trainingszeit als frühere rekurrente neuronale Netzarchitekturen wie Long Short-Term Memory (LSTM).

RNNs und LSTMs stammen aus den 1920er bzw. 1990er Jahren. Diese Techniken berechnen jede Komponente einer Eingabe nacheinander (z. B. Wort für Wort), so dass die Berechnung viel Zeit in Anspruch nehmen kann. Darüber hinaus stoßen beide Ansätze bei der Beibehaltung des Kontexts an ihre Grenzen, wenn der „Abstand“ zwischen den Informationen in einer Eingabe groß ist.

Zwei große Innovationen

Es gibt zwei Hauptinnovationen, die Transformator-Modelle mit sich bringen. Betrachten Sie diese beiden Innovationen im Zusammenhang mit der Textvorhersage.

Positionscodierung: Anstatt jedes Wort in der Reihenfolge zu betrachten, in der es in einem Satz erscheint, wird jedem Wort eine eindeutige Zahl zugewiesen. Dies liefert Informationen über die Position jedes Tokens (Teile der Eingabe wie Wörter oder Teilwortteile in NLP) in der Sequenz, sodass das Modell die sequentiellen Informationen der Sequenz berücksichtigen kann.
Selbstbeobachtung: Achtung ist ein Mechanismus, der Gewichtungen für jedes Wort in einem Satz berechnet, während sie sich auf jedes andere Wort im Satz beziehen, sodass das Modell Wörter vorhersagen kann, die wahrscheinlich in der Sequenz verwendet werden. Dieses Verständnis wird im Laufe der Zeit erlernt, da ein Modell anhand vieler Daten trainiert wird. Der Mechanismus der Selbstbeobachtung ermöglicht es jedem Wort, jedes andere Wort in der Sequenz parallel zu beachten und deren Bedeutung für das aktuelle Token abzuwägen. Auf diese Weise kann man sagen, dass Modelle des maschinellen Lernens die Regeln der Grammatik „lernen“ können, basierend auf statistischen Wahrscheinlichkeiten, wie Wörter typischerweise in der Sprache verwendet werden.

Wie funktionieren Transformator-Modelle?

Transformator-Modelle verarbeiten Eingabedaten, bei denen es sich um Sequenzen von Token oder andere strukturierte Daten handeln kann, über eine Reihe von Schichten, die Selbstbeobachtungs-Mechanismen und vorwärtsgerichtete neuronale Netze enthalten. Die Kernidee hinter der Funktionsweise von Transformator-Modellen kann in mehrere wichtige Schritte unterteilt werden.

Stellen wir uns vor, Sie müssen einen englischen Satz ins Französische umwandeln. Dies sind die Schritte, die Sie ausführen müssen, um diese Aufgabe mit einem Transformator-Modell zu erfüllen.

Eingabe-Einbettungen: Der Eingabesatz wird zuerst in numerische Darstellungen umgewandelt, die als Einbettungen bezeichnet werden. Diese erfassen die semantische Bedeutung der Token in der Eingabesequenz. Für Wortfolgen können diese Einbettungen während des Trainings gelernt oder aus vorab trainierten Worteinbettungen erhalten werden.
Positionskodierung: Positionskodierung wird normalerweise als Satz zusätzlicher Werte oder Vektoren eingeführt, die den Token-Einbettungen hinzugefügt werden, bevor sie in das Transformator-Modell eingespeist werden. Diese Positionskodierungen weisen spezifische Muster auf, die die Positionsinformationen kodieren.
Multi-Head-Aufmerksamkeit: Selbstbeobachtung arbeitet in mehreren „Aufmerksamkeitsköpfen“, um verschiedene Arten von Beziehungen zwischen Token zu erfassen. Softmax-Funktionen, eine Art Aktivierungsfunktion, werden zur Berechnung der Aufmerksamkeitsgewichte im Selbstbeobachtungs-Mechanismus verwendet.
Layer-Normalisierung und Residuenverbindungen: Das Modell verwendet Layer-Normalisierung und Residuenverbindungen, um das Training zu stabilisieren und zu beschleunigen.
Feedforward-neuronales Netz: Der Output der Selbstbeobachtungs-Ebene wird durch Feedforward-Ebenen weitergeleitet. Diese Netzwerke wenden nichtlineare Transformationen auf die Token-Repräsentationen an, sodass das Modell komplexe Muster und Beziehungen in den Daten erfassen kann.
Gestapelte Ebenen: Transformator bestehen in der Regel aus mehreren übereinander gestapelten Schichten. Jede Ebene verarbeitet die Ausgabe der vorherigen Ebene und verfeinert die Darstellungen schrittweise. Durch das Stapeln mehrerer Ebenen kann das Modell hierarchische und abstrakte Funktionen in den Daten erfassen.
Output-Ebene: Bei sequenziellen Aufgaben wie der neuronalen Maschinenübersetzung kann ein separates Decoder-Modul über dem Encoder hinzugefügt werden, um die Ausgabesequenz zu generieren.
Training: Transformator-Modelle werden mit überwachtem Lernen trainiert, bei dem sie lernen, eine Verlustfunktion zu minimieren, die die Differenz zwischen den Vorhersagen des Modells und der Ground Truth für die gegebene Aufgabe quantifiziert. Das Training umfasst in der Regel Optimierungstechniken wie Adam oder stochastic gradient descent (SGD).
Inference: Nach der Schulung kann das Modell für die Ableitung neuer Daten verwendet werden. Während der Inferenz wird die Eingabesequenz durch das vorab trainierte Modell geleitet, und das Modell generiert Vorhersagen oder Darstellungen für die gegebene Aufgabe.

Weiterführende Lösungen

Daten und KI

Data-Warehouse-Lösungen

Skalieren Sie ständig verfügbare, leistungsstarke Analysen und KI-Workloads auf verwalteten Daten in Ihrem gesamten Unternehmen.

Erfahren Sie mehr über Data Warehouse Lösungen

Daten und KI

IBM watsonx.data

IBM watsonx.data ist ein zweckmäßiger Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert und durch Abfragen, Governance und offene Datenformate unterstützt wird, um den Zugriff auf Daten und deren gemeinsame Nutzung zu erleichtern.

Weitere Informationen über IBM watsonx.data

Zugehörige Ressourcen

IBM unterstützt Unternehmen bei der Skalierung von KI-Workloads

Erfahren Sie mehr über IBM watsonx.data, einen Datenspeicher, mit dem Unternehmen ihre strukturierten und unstrukturierten Daten problemlos vereinheitlichen und verwalten können.

Das disruptive Potenzial von Open Data Lakehouse Architekturen und IBM watsonx.data

Entdecken Sie die Open Data Lakehouse-Architektur und erfahren Sie, wie sie die Flexibilität und die Kostenvorteile von Data Lakes mit der Leistung von Data Warehouses kombiniert.

IBM watsonx.data Ein offener, regulierter Hybrid-Datenspeicher

Entdecken Sie, wie IBM watsonx.data Unternehmen dabei hilft, die Herausforderungen der komplexen Datenlandschaft von heute zu meistern und KI auf ihre Bedürfnisse zu skalieren.

Presto: Verstehen Sie alle Ihre Daten, jede Größe, überall

Erfahren Sie, wie Presto, eine schnelle und flexible Open-Source-SQL-Query-Engine, dabei helfen kann, die Erkenntnisse zu liefern, die Unternehmen benötigen.

Machen Sie den nächsten Schritt

Skalieren Sie KI-Workloads für alle Ihre Daten, überall, mit IBM watsonx.data, einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert.

watsonx.data erkunden

Buchen Sie eine Live-Demo

Fußnoten

{¹ Google’s BERT Rolls Out Worldwide, Search Engine Journal (Link führt zu Seite außerhalb ibm.com), 9. Dezember 2019