GPTs (Generative Pre-Trained Transformers) sind eine Familie von Large Language Models (LLMs), die auf einer Transformer-Deep-Learning-Architektur basieren. Diese von OpenAI entwickelten Foundation Models unterstützen ChatGPT und andere generative KI-Anwendungen, die von Menschen erstellte Ausgaben simulieren können.
Das KI-Forschungsunternehmen OpenAI stellte 2018 das erste GPT-Modell mit dem Namen GPT-1 vor. Seitdem haben sie mehrere Weiterentwicklungen der GPT-Reihe von KI-Modellen herausgebracht. Das neueste GPT-Modell ist GPT-4, das Anfang 2023 veröffentlicht wurde. Im Mai 2024 kündigte OpenAI das mehrsprachige und multimodale GPT-4o1 an, das in der Lage ist, Audio-, Video- und Texteingaben in Echtzeit zu verarbeiten.
Als Foundation Model wurde GPT anschließend feinabgestimmt und an eine Vielzahl nachgelagerter spezifischer Aufgaben angepasst. Neben textbasierten Anwendungen unterstützt GPT auch Apps für künstliche Intelligenz (KI), die Bilder mithilfe von Computer Vision generieren und analysieren, Code schreiben, Daten verarbeiten und vieles mehr. Diese Apps stellen über Application Programming Interfaces (APIs) eine Verbindung zu GPT her, über die sie Daten austauschen können.
GPT-Modelle haben die Entwicklung der generativen KI dank ihrer Transformator-Architektur beschleunigt. Dabei handelt es sich um eine Art von neuronalem Netz, das 2017 in dem Google Brain Paper Attention Is All You Need2 vorgestellt wurde. Transformator-Modelle wie GPT und BERT haben seitdem viele bemerkenswerte Entwicklungen im Bereich der generativen KI vorangetrieben, wobei der Chatbot ChatGPT von OpenAI im Mittelpunkt steht.
Neben OpenAI haben auch andere Unternehmen ihre eigenen generativen KI-Modelle veröffentlicht. Dazu gehören Claude von Anthropic, Pi von Inflection und Gemini von Google, früher bekannt als Bard. Inzwischen ist OpenAI die treibende Kraft hinter dem KI-gestützten Copilot-Dienst von Microsoft.
Die Flexibilität von Transformator-Modellen wie GPT ermöglicht eine Vielzahl von Anwendungsfällen. Die Fähigkeit von GPT, eine menschenähnliche Textgenerierung zu ermöglichen, macht es zu einer weit verbreiteten Wahl für:
Chatbots, die auf GPT basieren, können sich menschlicher anfühlen als herkömmliche, automatisierte Optionen für den Kundenservice. Über APIs können Unternehmen GPT mit Sprach-Apps verknüpfen, um Sprachassistenten zu erstellen, die in der Lage sind, auf komplexere Aussagen zu reagieren und Frage-Antwort-Dienste im Gespräch bereitzustellen.
Mit effektiven Prompts können GPT-Modelle Textinhalte generieren, die von kurzen Social-Media-Beiträgen bis hin zu vollständigen Blogbeiträgen und E-Mails reichen. Außerdem können Autoren GPTs verwenden, um Inhalte zu skizzieren oder zu konzipieren, die sie dann selbst schreiben, und so die Workflows für die Erstellung von Inhalten zu optimieren.
Die Verwendung von GPT zur direkten Generierung von Inhalten für die Veröffentlichung könnte zu Bedenken hinsichtlich des geistigen Eigentums führen – eines der größten Risiken bei der Verwendung von GPT.
GPT-gestützte Apps können Sprache in Echtzeit sowohl aus schriftlichen als auch aus Audioquellen übersetzen. In einer Live-Demo3 demonstrierte GPT-4o seine Fähigkeit, eigenständig in Echtzeit zu übersetzen.
GPT kann umfangreiche Dokumente wie Rechtsdokumente oder Geschäftsberichte verarbeiten und zusammenfassen. Es kann auch Inhalte in dem vom Benutzer angegebenen Stil umschreiben. Ein Benutzer könnte beispielsweise einen Quartalsbericht als Eingabedaten bereitstellen und dann eine Zusammenfassung in Form von prägnanten Aufzählungspunkten anfordern.
GPT kann große Datenmengen in verwertbare Erkenntnisse umwandeln. Über APIs können andere Apps GPT verwenden, um Diagramme, Grafiken und andere Typen von Datenvisualisierungen zu erstellen. Unternehmen, die interne Daten in GPT einspeisen, könnten sich Cybersicherheitsverletzungen aussetzen oder gegen Datenschutzbestimmungen verstoßen.
GPT-Modelle können Programmiersprachen erlernen und Code-Schnipsel generieren. In der Regel erzielen Benutzer bessere Ergebnisse, wenn sie GPT als Codierungshilfe einsetzen, anstatt es zu bitten, komplette Apps von Grund auf neu zu erstellen. Alle von GPT generierten Inhalte, einschließlich Code, sollten vor der Verwendung überprüft werden, um die Richtigkeit und faire Verwendung sicherzustellen.
Im Februar 2024 veröffentlichte die US National Library of Medicine einen Bericht, in dem mögliche GPT-Anwendungen im Gesundheitswesen beschrieben werden. Dazu gehören ein gleichbleibender Zugang für Patienten in entlegenen Gebieten sowie personalisierte Versorgungsoptionen. Der Bericht behandelt jedoch auch eine Reihe von Nachteilen, wie z. B. Bedenken hinsichtlich des Datenschutzes und Wissenslücken.
GPT-Modelle arbeiten, indem sie eine Eingabesequenz analysieren und komplexe Mathematik anwenden, um den wahrscheinlichsten Output vorherzusagen. Es verwendet Wahrscheinlichkeiten, um das bestmögliche nächste Wort in einem Satz zu ermitteln, basierend auf allen vorherigen Wörtern. Als eine Art von Deep-Learning-KI-Technologie verwenden GPTs die Verarbeitung natürlicher Sprache (NLP), um Benutzer-Prompts zu verstehen und entsprechende menschenähnliche Antworten zu generieren.
Wenn ein Benutzer einen textbasierten Prompt eingibt, erstellt GPT die wahrscheinlichste Antwort auf der Grundlage seiner Trainingsdaten, die Milliarden öffentlich zugänglicher Textdatenquellen umfassen, die von berühmten literarischen Werken bis hin zu Open-Source-Code reichen.
Der Umfang seiner Trainingsdatensätze ist der Grund dafür, dass GPT in der Lage ist, menschenähnliche Fähigkeiten des Sprachverständnisses nachzuahmen. Groß angelegte GPT-Modelle verwenden Deep Learning zur Kontextverarbeitung und ziehen Wissen aus dem relevanten Text in ihren Trainingsdaten zur Vorhersage der optimalen Reaktion.
Die Stärke von GPT-Modellen beruht auf zwei wesentlichen Aspekten:
Generatives Vortraining, das dem Modell beibringt, Muster in nicht gekennzeichneten Daten zu erkennen und diese Muster dann auf neue Eingaben anzuwenden.
Eine Transformer-Architektur, die es dem Modell ermöglicht, alle Teile einer Eingabesequenz parallel zu verarbeiten.
Beim generativen Vortraining wird ein Large Language Model mit nicht gekennzeichneten Daten trainiert, um dem Modell beizubringen, verschiedene Daten zu erkennen, und seine Fähigkeit zu verbessern, genaue Vorhersagen zu treffen. GPTs generieren neue Daten, indem sie die Muster und Strukturen ihrer vortrainierten Daten auf Benutzereingaben anwenden.
Generatives Vortraining ist eine Form des Unsupervised Learning, bei dem das Modell mit nicht gekennzeichneten Daten gefüttert wird und gezwungen ist, diese selbst zu verstehen. Durch das Erkennen von Mustern in unmarkierten Datensätzen erlangen Modelle des Machine Learning die Fähigkeit, ähnliche Schlussfolgerungen zu ziehen, wenn sie neuen Eingaben ausgesetzt werden, wie z. B. einem Prompt des Benutzers in ChatGPT.
GPT-Modelle werden mit Milliarden oder sogar Billionen von Parametern trainiert: interne Variablen, die ein Modell im Laufe des Trainingsprozesses verfeinert und die sein Verhalten bestimmen. Obwohl OpenAI noch keine genauen Details zu GPT-4 bekannt gegeben hat, enthält das Modell schätzungsweise etwa 1,8 Billionen Parameter4, was einer Steigerung um mehr als das Zehnfache gegenüber GPT-3.5 entspricht.
Transformator-Modelle sind ein Typ eines neuronalen Netzes, das auf die Verarbeitung natürlicher Sprache spezialisiert ist: die Absicht und Bedeutung in einer textbasierten Eingabe zu identifizieren. Sie können Eingaben dynamisch verarbeiten und die wichtigsten Wörter herausfiltern, unabhängig von der Position im Satz.
GPT-Modelle verstehen Sprache nicht auf die gleiche Weise wie Menschen. Stattdessen werden Wörter in einzelne Einheiten, sogenannte Token, zerlegt, wobei einige Wörter in mehrere Token aufgeteilt werden. Durch die gleichzeitige Auswertung aller Token sind Transformatoren hervorragend darin, Abhängigkeiten über große Entfernungen hinweg herzustellen: Beziehungen zwischen weit entfernten Token. GPT stützt sich auf sein Verständnis langfristiger Abhängigkeiten, um Eingaben kontextbezogen zu verarbeiten.
Transformator-Modelle verarbeiten Daten mit zwei Modulen – die als Encoder und Decoder bekannt sind – und nutzen Selbstaufmerksamkeitsmechanismen, um Abhängigkeiten und Beziehungen herzustellen.
Selbstbeobachtungs-Mechanismus sind das charakteristische Merkmal von Transformatoren, die es ihnen ermöglichen, eine gesamte Eingangssequenz auf einmal zu verarbeiten. Transformatoren können ihre „Aufmerksamkeit“ auf die wichtigsten Zeichen in der Eingabesequenz lenken, unabhängig davon, wo sie sich befinden.
Im Gegensatz dazu werten ältere rekurrente neuronale Netze (RNNs) und Convolutional Neural Networks (CNNs) Eingabedaten sequenziell oder hierarchisch aus. Mit der Selbstbeobachtung können GPTs den Kontext verarbeiten und ausführlich mit einer Sprache antworten, die sich natürlich anfühlt, anstatt nur das nächste Wort in einem Satz zu erraten.
Bei der Codierung werden Token auf einen virtuellen dreidimensionalen Vektorraum abgebildet. Es wird davon ausgegangen, dass Token, die in der Nähe im 3D-Raum codiert werden, eine ähnliche Bedeutung haben. Diese mathematische Vektorisierung einer Eingabesequenz wird als Embedding bezeichnet.
Die Encoder-Blöcke im Transformator-Netzwerk weisen jedem Embedding ein Gewicht zu, das ihre relative Wichtigkeit bestimmt. In der Zwischenzeit erfassen Positionsencoder die Semantik und ermöglichen es GPT-Modellen, zwischen Gruppierungen derselben Wörter, aber in unterschiedlicher Reihenfolge zu unterscheiden – zum Beispiel „Das Ei kam vor dem Huhn“ im Vergleich zu „Das Huhn kam vor dem Ei“.
Decoder sagen die statistisch wahrscheinlichste Antwort auf die von den Encodern vorbereiteten Einbettungen voraus. Selbstbeobachtungs-Mechanismen ermöglichen es dem Decoder, die wichtigsten Teile der Eingangssequenz zu identifizieren, während fortschrittliche Algorithmen die wahrscheinlichste Ausgabe ermitteln.
Seit der Veröffentlichung von GPT im Jahr 2018 steht OpenAI weiterhin an vorderster Front der laufenden Debatte über generative KI. Neben seinem Vorzeigeprodukt ChatGPT hat das Unternehmen auch die Bilderzeugung mit DALL-E sowie die generative Videoerzeugung mit Sora vorangetrieben.
OpenAI veröffentlicht sein erstes GPT-Modell. Seine Leistung war für die damalige Zeit beeindruckend und diente als Machbarkeitsnachweis für das, was spätere Entwicklungen erreichen würden. GPT-1 war in der Lage, Fragen auf menschenähnliche Weise zu beantworten und auf Prompts zur Texterstellung zu reagieren, was seine zukünftigen Anwendungsfälle in Chatbots und bei der Erstellung von Inhalten hervorhebt.
GPT-1 war vergleichsweise anfällig für Halluzinationen oder Konfabulationen, bei denen es falsche Informationen so präsentierte, als wären sie wahr. Die Antworten deuteten darauf hin, dass OpenAI die Fähigkeit von GPT, langfristige Abhängigkeiten zu erkennen und präzise Langform-Antworten aneinanderzureihen, noch nicht verfeinert hatte.
Das nächste Modell von OpenAI verfügte über 1,5 Milliarden Parameter, was seine Leistung verbesserte. GPT-2 war erfolgreicher als sein Vorgänger, wenn es darum ging, die Kohärenz über längere Antworten hinweg aufrechtzuerhalten, was darauf hindeutet, dass seine langfristige Abhängigkeitserkennung viel besser etabliert war.
GPT-2 wurde schrittweise veröffentlicht, wobei mehrere Modelle mit begrenzter Kapazität vor der Vollversion verfügbar waren. In einer Erklärung5 begründete OpenAI die gestaffelte Veröffentlichung mit der Notwendigkeit, potenziellen Missbrauch und andere ethische Bedenken zu minimieren. OpenAI führte an, wie das Modell dazu verwendet werden könnte, sich online als jemand anderes auszugeben, irreführende Nachrichten zu generieren und sowohl Cybermobbing als auch Phishing-Inhalte zu automatisieren.
Obwohl Sam Altman, CEO von OpenAI, wiederholt öffentlich eine staatliche Regulierung der KI gefordert hat, hat das Unternehmen auch privat Lobbyarbeit betrieben, um das KI-Gesetz der EU weniger restriktiv zu gestalten6. Der endgültige Wortlaut des Gesetzes, das im Juni 2024 vom Europäischen Parlament verabschiedet wurde, schien den Empfehlungen des Unternehmens zu entsprechen.
Mit 175 Milliarden Parametern – über hundertmal mehr als sein Vorgänger – entwickelte sich GPT-3 zu einem der größten LLMs seiner Zeit. Seine Fähigkeiten übertrafen die seiner Vorgänger bei Weitem. Die kostenlose Version von ChatGPT basiert immer noch auf GPT-3.5, der aktuellsten Version von GPT-3.
Während die Leistung von GPT-3 seine zusätzliche Leistung und Größe widerspiegelte, stiegen auch die Trainingsanforderungen sprunghaft an. Die für das Training solch großer LLMs erforderlichen Rechen- und Energieressourcen gaben Anlass zur Sorge hinsichtlich ihres CO2- und Wasser-Fußabdrucks7. Als Reaktion darauf entwickelte OpenAI neuartige Trainingsmethoden, die die Effizienz des Trainingsprozesses erhöhten.
Die aktuelle Version von GPT ist die bisher leistungsstärkste von OpenAI und übertrifft ihre Vorgänger sowohl in der Qualität der Inhalte als auch in der Vermeidung von Verzerrungen. Es steckt hinter der Premium-Version von ChatGPT und bietet Abonnenten eine größere Funktionalität und Leistung als die kostenlose Version des Chatbots, der auf GPT-3.5 basiert.
Jedoch handelt es sich aucjh auch um das ressourcenintensivste Modell in der GPT-Familie, wobei die täglichen Betriebskosten auf 700.000 US-Dollar geschätzt werden8. Während die LLMs weiter wachsen, halten die Debatten über die Kosten im Vergleich zu den potenziellen Vorteilen an. In einem Bericht von Goldman Sachs vom Juni 20249 wurde auf die potenziell begrenzten Anwendungsfälle generativer KI im Vergleich zu den steigenden Kosten für das Trainieren und die Wartung von Modellen hingewiesen.
GPT-4 Turbo, die aktuelle Version des Modells, hat einen Wissens-Cutoff vom April 2023. Das bedeutet, dass die Trainingsdaten oder die Wissensdatenbank keine Online-Inhalte abdecken, die nach diesem Zeitpunkt veröffentlicht wurden.
GPT-4o wurde im Mai 2024 vorgestellt und ist mehrsprachig, d. h., es unterstützt Inhalte in zahlreichen nicht-englischen Sprachen. GPT-4o ist zudem multimodal und kann Bild-, Audio- und Videoprompts verarbeiten, während es Text-, Bild- und Audiodaten generiert Laut OpenAI ist GPT-4o bei der Textgenerierung 50 % günstiger und doppelt so schnell10 wie GPT-4 Turbo.
Während GPTs und andere generative KI-Modelle in den Medien weithin gefeiert wurden, ist ihr Einsatz nicht ganz risikofrei. Unternehmen und Einzelpersonen, die GPTs in ihre Workflows integrieren möchten, sollten sich der potenziellen Risiken bewusst sein, darunter:
Datenschutz und Vertraulichkeit
Verletzungen des geistigen Eigentums und Eigentumskonflikte
Ungenauer Output
Modellverzerrungen
Alle in GPT eingegebenen Daten stehen für die Verarbeitung anderer Anfragen zur Verfügung und können von OpenAI zum Trainieren anderer Modelle verwendet werden. Dies stellt nicht nur ein Sicherheitsrisiko für vertrauliche Daten dar, sondern birgt auch die Gefahr, dass Unternehmen gegen vertragliche und gesetzliche Verpflichtungen zum Datenschutz verstoßen.
OpenAI trainiert seine Modelle mit urheberrechtlich geschütztem Material. Das Unternehmen verteidigt diese Entscheidung als faire Nutzung, wurde jedoch unter anderem von The New York Times11, die im Dezember 2023 Klage einreichte, verklagt. KI-generierte Ausgaben können urheberrechtlich geschützte Inhalte enthalten, und ihre Verwendung kann gegen Urheberrechtsbeschränkungen verstoßen, wenn sie nicht zuvor von Menschen überprüft und bearbeitet werden.
OpenAI geriet unter Beschuss, als eine seiner ChatGPT-Stimmen vorgeworfen wurde, auf der Stimme von Schauspielerin Scarlett Johansson12 zu basieren, die 2013 im Film Her die Stimme einer futuristischen KI sprach. OpenAI verwendet diese bestimmte Stimme seitdem nicht mehr in seinen Produkten.
Es kann nicht garantiert werden, dass die von GPT generierten Ausgaben sachlich korrekt sind. Generative KI-Modelle unterliegen KI-Halluzinationen oder Konfabulationen, bei denen ihre Algorithmen Muster in den Daten erkennen, die nicht existieren. Konfabulationen führen dazu, dass die Modelle ungenaue Inhalte produzieren, die dem Benutzer als verlässliche Fakten präsentiert werden. Diese Tendenz in Bezug auf ChatGPT wurde in einem Artikel von Hicks und anderen aus dem Jahr 2024 ausführlich untersucht13.
Eine KI-Verzerrung ist eine Abweichung zwischen den Vorhersagen eines Modells, die auf seinen Trainingsdaten basieren, und dem, was in der realen Welt passiert. GPT wird anhand von Unmengen von Internetdaten trainiert, und da diese Inhalte von Menschen erstellt werden, können sie diskriminierende Ansichten enthalten – manchmal absichtlich, oft auch nicht. Da KI in die Polizeiarbeit, das Gesundheitswesen und andere Bereiche des täglichen Lebens integriert wird, können KI-Verzerrungen reale Konsequenzen haben.
Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 Hello GPT-4o, OpenAI, 13. Mai 2024
2 Attention Is All You Need, Vaswani et al, 12. Juni 2017
3 Live demo of GPT-4o realtime translation, OpenAI, 13. Mai 2024
4 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE, Patel & Wong, 10. Juli 2023
5 Better language models and their implications, OpenAI, 14. Februar 14 2019
6 Exclusive: OpenAI Lobbied the E.U. to Water Down AI Regulation, Perrigo, 20. Juni 2023
7 A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint, Saenko and others, 25. Mai 2023
8 Microsoft Readies AI Chip as Machine Learning Costs Surge, Gardizy & Ma, 18. April 2023
9 GenAI: Too Much Spend, Too Little Benefit?, Nathan, Grimberg & Rhodes, 25. Juni 2024
10 OpenAI Platform, OpenAI
11 Case 1:23-cv-11195, Barron et al, 27. Dezember 2023
12 Scarlett Johansson says a ChatGPT voice is ‘eerily similar’ to hers and OpenAI is halting its use, Grantham-Philips, 21. Mai 2024
13 ChatGPT is bullshit, Hicks and others, 8. Juni 2024