12. November 2024
Künstliche Superintelligenz (Artificial Superintelligence, ASI) ist noch ein hypothetisches Konzept. Daher konzentrieren sich die aktuellen Bemühungen im Bereich KI-Alignment weitgehend darauf, die heutigen KI-Modelle hilfreich, sicher und zuverlässig zu machen. Alignment stellt zum Beispiel sicher, dass intelligente Chatbots wie ChatGPT keine menschliche Verzerrung aufrechterhalten oder von bösartigen Akteuren ausgenutzt werden können.
Da die KI jedoch immer komplexer und fortschrittlicher wird, ist es immer schwieriger, ihre Ausgaben vorherzusehen und mit der menschlichen Absicht in Einklang zu bringen. Diese Herausforderung wird oft als „Ausrichtungsproblem“ bezeichnet. Es besteht die Sorge, dass superintelligente KI-Systeme eines Tages einen Punkt erreichen, an dem sie die menschliche Kontrolle vollständig umgehen können. Einige Experten glauben zudem, dass die heutigen KI-Risiken mit dem Fortschritt der KI exponentiell zunehmen könnten.
Diese und andere Bedenken haben zu einem neuen Zweig der fortgeschrittenen Bemühungen im Bereich Alignment geführt, der als Superalignment bekannt ist.
Um die künstliche Superintelligenz (Artificial Superintelligence, ASI) zu verstehen, ist es hilfreich, sie im Zusammenhang mit den anderen Arten von künstlicher Intelligenz zu betrachten: Artificial Narrow Intelligence (ANI) und Artificial General Intelligence (AGI). Die drei Arten lassen sich basierend auf ihren Funktionen einstufen:
Der Bereich der KI erzielt beeindruckende technologische Durchbrüche. Zum Beispiel kann AlphaFold 3 von DeepMind molekulare Strukturen und Wechselwirkungen mit außergewöhnlicher Genauigkeit vorhersagen und GPT-4o von OpenAI kann in Echtzeit argumentieren.
Trotz dieser Fortschritte ist KI immer noch nicht menschlich. Sie hat kein intrinsisches Interesse an Vernunft, Loyalität oder Sicherheit. Sie hat nur ein Ziel: die Aufgabe zu erledigen, für die sie programmiert wurde.
Es ist also die Aufgabe der KI-Entwickler, menschliche Werte und Ziele einzubeziehen. Andernfalls kommt es zu Fehlausrichtungen und KI-Systeme können schädliche Ausgaben erzeugen, die zu Verzerrung, Diskriminierung und Fehlinformationen führen.
Die heutigen Anpassungsbemühungen dienen dazu, schwache KI-Systeme im Einklang mit menschlichen Werten und Zielen zu halten. AGI- und ASI-Systeme könnten jedoch exponentiell riskanter, schwerer zu verstehen und schwieriger zu kontrollieren sein. Aktuelle Techniken zur KI-Ausrichtung, die auf menschlicher Intelligenz beruhen, sind wahrscheinlich nicht ausreichend, um KI-Systeme auszurichten, die intelligenter sind als Menschen.
Verstärkendes Lernen mit menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) ist beispielsweise eine Technik des maschinellen Lernens, bei der ein „Belohnungsmodell“ mithilfe von direktem menschlichen Feedback trainiert wird. OpenAI nutzte RLHF als Hauptmethode, um GPT-3 und GPT-4, die Technologien hinter ChatGPT, auszurichten, die als schwache KI-Modelle gelten. Um sicherzustellen, dass superintelligente KI-Systeme ein ähnliches Maß an Robustheit, Interpretierbarkeit, Kontrollierbarkeit und Ethik aufweisen, werden wesentlich fortschrittlichere Ausrichtungstechniken erforderlich sein.
Ohne Superalignment könnten fortschrittliche KI-Systeme mehrere Risiken mit sich bringen. Dazu gehören:
Wenn fortschrittliche KI-Systeme so komplex und fehlausgerichtet sind, dass eine menschliche Kontrolle nicht mehr möglich ist, könnten ihre Ergebnisse unvorhersehbar und unkontrollierbar werden. Die meisten Experten halten ein Übernahmeszenario durch humanoide Roboter jedoch für unwahrscheinlich. Ein AGI- oder ASI-System, das zu weit von seinen angestrebten Zielen abweicht, könnte jedoch in Situationen mit hohem Risiko, wie bei kritischen Infrastrukturen oder der Landesverteidigung, katastrophal sein.
Superintelligente KI könnte Ziele auf eine Weise verfolgen, die der Menschheit existenziell schaden. Ein häufig zitiertes Beispiel ist das Gedankenexperiment des Philosophen Nick Bostrom, bei dem ein ASI-Modell so programmiert wird, dass es Büroklammern herstellt. Mit übermenschlicher Rechenleistung verwandelt das Modell schließlich alles – sogar Teile des Weltraums – in Einrichtungen zur Herstellung von Büroklammern, um sein Ziel zu erreichen.1
Es gibt zwar verschiedene zuverlässige Methoden, um Verzerrungen in KI-Systemen zu begegnen, aber das Risiko bleibt dennoch eine Überlegung für zukünftige KI. Fortschrittliche KI-Systeme könnten menschliche Verzerrung durch unfaire oder diskriminierende Ergebnisse verstärken. Aufgrund der Komplexität des Systems könnte es schwierig sein, diese verzerrten Ergebnisse zu erkennen und abzumildern. KI-Verzerrung ist besonders besorgniserregend, wenn sie in Bereichen wie dem Gesundheitswesen, der Strafverfolgung und dem Personalwesen auftritt.
Böswillige Akteure könnten superintelligente KI für schändliche Zwecke wie soziale Kontrolle oder groß angelegte Finanz-Hacks ausnutzen. Es könnte jedoch auch zu gesellschaftlichen und wirtschaftlichen Beeinträchtigungen kommen, wenn fortschrittliche KI ohne die notwendigen rechtlichen und regulatorischen Frameworks eingeführt wird.
So werden beispielsweise Finanz-KI-Agenten zunehmend für Aufgaben wie Handel oder Asset-Management eingesetzt, aber wer die Verantwortung für ihre Handlungen trägt, ist oft unklar. Wer haftet, wenn ein KI-Agent gegen die SEC-Vorschriften verstößt? Mit zunehmender Weiterentwicklung der Technologie kann diese mangelnde Verantwortlichkeit zu Misstrauen und Instabilität führen.2
Es besteht die Befürchtung, dass Menschen irgendwann zu sehr auf fortschrittliche KI-Systeme angewiesen sein könnten. Das würde die Gefahr mit sich bringen, dass wir kognitive Fähigkeiten und Entscheidungsfähigkeiten verlieren. Ebenso könnte eine zu starke Abhängigkeit von KI in Bereichen wie der Cybersicherheit zur Nachlässigkeit menschlicher Teams führen. KI ist nicht unfehlbar und es ist weiterhin menschliche Aufsicht erforderlich, um sicherzustellen, dass alle Bedrohungen eingedämmt werden.
Derzeit gibt es verschiedene Techniken zur Ausrichtung von KI, etwa verstärkendes Lernen mit menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF), Ansätze mit synthetischen Daten und Adversarial Testing. Aber diese Methoden sind wahrscheinlich nicht ausreichend, um superintelligente KI-Modelle auszurichten. Aktuell existieren weder AGI noch ASI und es gibt keine etablierten Methoden, um diese komplexeren KI-Systeme auszurichten.
Es gibt jedoch mehrere Superalignment-Ideen mit vielversprechenden Ergebnissen:
Als Menschen sind wir nicht in der Lage, KI-Systeme, die intelligenter sind als wir, zuverlässig zu überwachen. Skalierbare Aufsicht ist eine skalierbare Trainingsmethode, bei der Menschen schwächere KI-Systeme nutzen können, um komplexere KI-Systeme auszurichten.
Die Forschung, um diese Technik zu testen und zu erweitern, ist begrenzt – weil es superintelligente KI-Systeme noch nicht gibt. Forscher von Anthropic (einem KI-Sicherheits- und Forschungsunternehmen) haben jedoch ein Proof-of-Concept-Experiment durchgeführt.
In dem Experiment wurden menschliche Teilnehmer angewiesen, Fragen mit Hilfe eines LLM zu beantworten. Diese KI-unterstützten Menschen übertrafen sowohl das Modell selbst als auch die nicht unterstützten Menschen in Bezug auf die Genauigkeit. Die Forscher kamen zu den Schluss, dass diese Ergebnisse Hoffnung geben und dazu beitragen, die Idee zu bestätigen, dass LLMs „Menschen helfen können, schwierige Aufgaben in Umgebungen zu erledigen, die für eine skalierbare Aufsicht relevant sind“.3
Verallgemeinerung ist die Fähigkeit von KI-Systemen, zuverlässige Vorhersagen auf der Grundlage von Daten zu treffen, mit denen sie nicht trainiert wurden. Die Schwach-zu-Stark-Verallgemeinerung ist eine KI-Trainingstechnik, bei der schwächere Modelle verwendet werden, um stärkere Modelle zu trainieren, damit sie bei neuen Daten besser abschneiden und die Verallgemeinerung verbessern.
Das Superalignment-Team von OpenAI – gemeinsam geleitet von Ilya Sutskever (Mitbegründer und ehemaliger Chief Scientist von OpenAI) und Jan Leike (ehemaliger Head of Alignment) – diskutierte die Schwach-zu-Stark-Verallgemeinerung in seinem ersten Forschungspapier. Das Experiment verwendete ein „schwaches“ GPT-2-Level-Modell, zur Feinabstimmung eines GPT-4-Level-Modells. Mit dieser Methode stellte das Team fest, dass die Leistung des resultierenden Modells zwischen einem GPT-3- und einem GPT-3,5-Niveau lag. Es kam zu dem Schluss, dass die Verallgemeinerung mit der Schwach-zu-Stark-Methode deutlich verbessert werden kann.
In Bezug auf das Superalignment zeigt diese Proof-of-Concept-Demonstration, dass eine erhebliche Verbesserung der Schwach-zu-Stark-Verallgemeinerung möglich ist. In dem entsprechenden Forschungspapier des Teams heißt es: „Es ist heute möglich, empirische Fortschritte bei der grundlegenden Herausforderung zu machen, übermenschliche Modelle auszurichten.“4 Eine Folgestudie der Peking Jiaotong Universität zeigte, dass die Schwach-zu-Stark-Verallgemeinerung durch skalierbare Überwachung verbessert werden kann.5
Das Superalignment-Team von OpenAI wurde jedoch im Mai 2024 aufgrund von Prioritätenverschiebungen innerhalb des Unternehmens aufgelöst. In einem Beitrag in den sozialen Medien dankte CEO Sam Altman dem Team und sagte, dass OpenAI „die Grundlagen für die sichere Bereitstellung von zunehmend leistungsfähigen Systemen geschaffen“ habe.6
Weiter unten in der Alignment-Pipeline befindet sich die automatisierte Alignment-Forschung. Diese Superalignment-Technik verwendet bereits ausgerichtete übermenschliche KI-Systeme, um automatisierte Alignment-Forschung durchzuführen. Diese „KI-Forscher“ wären schneller und intelligenter als menschliche Forscher. Mit diesen Vorteilen könnten sie möglicherweise neue Superalignment-Techniken entwickeln. Anstatt die technische Alignment-Forschung direkt zu entwickeln und zu implementieren, würden menschliche Forscher die generierte Forschung überprüfen.
Leopold Aschenbrenner, AGI-Investor und ehemaliges Mitglied des Superalignment-Teams bei OpenAI, beschreibt das enorme Potenzial dieser Technik: „Wenn wir es schaffen, Systeme so auszurichten, dass wir ihnen vertrauen können, sind wir in einer unglaublichen Position: Wir werden Millionen von automatisierten KI-Forschern zur Verfügung haben, die intelligenter sind als die besten KI-Forscher.“7
In Bezug auf Superalignment gibt es viele Herausforderungen. Zum Beispiel die Frage, wer die Benchmarks für Werte, Ziele und Ethik definiert. Aber eine Herausforderung stellt alle anderen in den Schatten: Es ist extrem schwierig, zuverlässige Ausrichtungstechniken für leistungsstarke KI-Systeme zu entwickeln, die nicht nur intelligenter sind als wir, sondern auch nur in der Theorie existieren.
Branchenexperten sehen sich außerdem mit philosophischen Meinungsverschiedenheiten in Bezug auf Superalignment konfrontiert. Einige KI-Labors sind beispielsweise der Meinung, dass die Konzentration der KI-Entwicklungsbemühungen auf die Ausrichtung zukünftiger KI-Systeme aktuelle KI-Prioritäten und neue Forschung behindern könnte. Auf der anderen Seite argumentieren die Verfechter der KI-Sicherheit, dass die Risiken der Superintelligenz zu groß sind, um sie zu ignorieren, und den potenziellen Nutzen überwiegen.
Die letztgenannte Denkweise inspirierte den ehemaligen Chefwissenschaftler von OpenAI, Ilya Sutskever, gemeinsam mit dem Investor Daniel Gross und dem ehemaligen OpenAI-Forscher Daniel Levy Safe Superintelligence Inc. zu gründen. Das Startup konzentriert sich auf den „Aufbau einer sicheren Superintelligenz (SSI)“ ohne „Ablenkung durch Management-Overhead oder Produktzyklen“ sowie auf Fortschritte „unabhängig von kurzfristigem kommerziellen Druck“8.
Links befinden sich außerhalb von ibm.com.
1 „Ethical Issues in Advanced Artificial Intelligence“, Nick Bostrom, n.d.
2 „Will Financial AI Agents Destroy The Economy?“, The Tech Buzz, 25. Oktober 2024.
3 „Measuring Progress on Scalable Oversight for Large Language Models“, Anthropic, 4. November 2022.
4 „Weak-to-strong generalization“, OpenAI, 14. Dezember 2023.
5 „Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning“, arXiv, 1. Februar 2024.
6 X-Post, Greg Brockman, 18. Mai 2024.
7 “Superalignment,” Situational Awareness: The Decade Ahead, Juni 2024.
8 „Superintelligence is within reach“, Safe Superintelligence Inc., 19. Juni 2024.
Erfahren Sie, wie sich das EU-Gesetz zur KI auf die Wirtschaft auswirken wird, wie Sie sich vorbereiten, wie Sie Risiken mindern können und wie Sie Regulierung und Innovation in Einklang bringen.
Erfahren Sie mehr über die neuen Herausforderungen der generativen KI, die Notwendigkeit der Steuerung von KI- und ML-Modellen und die Schritte zum Aufbau eines vertrauenswürdigen, transparenten und erklärbaren KI-Frameworks.
Erfahren Sie, wie Sie mit einem Portfolio von KI-Produkten für generative KI-Modelle ethische und gesetzeskonforme Praktiken fördern.
Gewinnen Sie mit watsonx.governance ein tieferes Verständnis dafür, wie Sie Fairness gewährleisten, Drifts verwalten, die Qualität aufrechterhalten und die Erklärbarkeit verbessern können.
Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.
Bereiten Sie sich auf das EU-Gesetz zur KI vor und etablieren Sie mithilfe von IBM Consulting einen verantwortungsvollen KI-Governance-Ansatz.
Vereinfachen Sie die Verwaltung von Risiken und die Einhaltung gesetzlicher Vorschriften mit einer einheitlichen GRC-Plattform.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com