Die Interpretierbarkeit von KI hilft Menschen dabei, die Entscheidungsprozesse, die Modellen künstlicher Intelligenz (KI) zugrunde liegen, besser zu verstehen und zu erklären.
KI-Modelle nutzen ein komplexes Netz aus Dateneingaben, Algorithmen, Logik, Data Science und anderen Prozessen, um Erkenntnisse zu gewinnen. Je komplexer das Modell ist, desto schwieriger kann es für Menschen sein, die Schritte zu verstehen, die die Erkenntnisse hervorgebracht haben – selbst für diejenigen, die das Modell entworfen und gebaut haben. Ein interpretierbares Modell ist ein Modell, dessen Entscheidungen von den Benutzern leicht verstanden werden können.
Die Nutzung von KI nimmt zu. Systeme, die Large Language Models (LLMs) verwenden, werden zu Routinebestandteilen des täglichen Lebens, von Smart-Home-Geräten über die Erkennung von Kreditkartenbetrug bis hin zur breiten Nutzung von ChatGPT und anderen Tools der generativen KI. Da hochkomplexe Modelle (einschließlich Deep-Learning-Algorithmen und neuronale Netze) immer häufiger eingesetzt werden, wird die Interpretierbarkeit von KI immer wichtiger.
Darüber hinaus sind KI-Systeme und Algorithmen für maschinelles Lernen im Gesundheitswesen, im Finanzwesen und in anderen Branchen, in denen es um kritisch oder lebensverändernde Entscheidungen geht, zunehmend verbreitet. Bei einem so hohen Einsatz muss die Öffentlichkeit darauf vertrauen können, dass die Ergebnisse fair und zuverlässig sind. Dieses Vertrauen hängt davon ab, zu verstehen, wie KI-Systeme zu ihren Vorhersagen kommen und ihre Entscheidungen treffen.
Whitebox-KI-Modelle verfügen über Eingaben und eine Logik, die leicht zu erkennen und zu verstehen sind. Zum Beispiel sind grundlegende Decision Trees, die einen klaren Ablauf zwischen den einzelnen Schritten zeigen, für den Durchschnittsbürger nicht schwer zu entschlüsseln. Whitebox-Modelle neigen dazu, eher lineare Entscheidungssysteme zu verwenden, die leicht zu interpretieren sind, aber zu weniger Genauigkeit oder weniger überzeugenden Erkenntnissen oder Anwendungen führen können.
Blackbox-KI-Modelle sind komplizierter und bieten weniger Transparenz im Hinblick auf ihre inneren Abläufe. Der Benutzer weiß im Allgemeinen nicht, wie das Modell zu seinen Ergebnissen gelangt. Diese komplexeren Modelle sind in der Regel genauer und präziser. Da sie jedoch schwer oder gar nicht zu verstehen sind, werden Bedenken hinsichtlich ihrer Zuverlässigkeit, Fairness, Voreingenommenheit und anderer ethischer Fragen laut. Ein Weg, um Vertrauen in die Nutzung von Blackbox-Modellen zu schaffen, besteht darin, sie verständlicher zu machen.
KI-Interpretierbarkeit konzentriert sich darauf, das Innenleben eines KI-Modells zu verstehen, während die KI-Erklärbarkeit darauf abzielt, die Outputs des Modells zu begründen.
Bei der Interpretierbarkeit geht es um Transparenz, die es den Benutzern ermöglicht, die Architektur des Modells, die verwendeten Funktionen und deren Kombination zur Erstellung von Vorhersagen zu verstehen. Die Entscheidungsprozesse eines interpretierbaren Modells sind für Menschen leicht verständlich. Eine bessere Interpretierbarkeit erfordert eine umfassendere Offenlegung der internen Abläufe.
Bei der Erklärbarkeit geht es um die Überprüfung oder die Lieferung von Begründungen für die Outputs des Modells, oft nachdem das Modell seine Vorhersagen getroffen hat. Erklärbare KI (XAI) wird eingesetzt, um die Faktoren zu identifizieren, die zu den Ergebnissen geführt haben. Es gibt verschiedene Erklärbarkeitsmethoden, mit denen die Modelle so dargestellt werden können, dass ihre komplexen Prozesse und die zugrunde liegende Data Science für einen Menschen in natürlicher Sprache verständlich sind.
Die InDie Interpretierbarkeit von KI hilft dabei, Modelle zu debuggen, Verzerrungen zu erkennen, die Einhaltung von Vorschriften sicherzustellen und Vertrauen bei den Nutzern aufzubauen. Entwickler und Benutzer können damit sehen, wie sich ihre Modelle auf Menschen und Unternehmen auswirken, und sie verantwortungsbewusst weiterentwickeln.
Interpretierbarkeit ist aus mehreren Gründen wichtig:
Ohne Interpretierbarkeit tappen die Benutzer im Dunkeln. Dieser Mangel an Verantwortlichkeit kann das Vertrauen der Öffentlichkeit in die Technologie schwächen. Wenn die Beteiligten genau verstehen, wie ein Modell seine Entscheidungen trifft, ist die Wahrscheinlichkeit höher, dass sie seine Ausgaben akzeptieren. Die Interpretierbarkeit von Modellen ermöglicht Transparenz und Klarheit, sodass sich die Benutzer darauf verlassen können, dass sie in realen Anwendungen wie medizinischen Diagnosen oder finanziellen Entscheidungen eingesetzt werden können.
Verzerrungen in den Trainingsdaten können durch KI-Modelle verstärkt werden. Die daraus resultierenden diskriminierenden Ergebnisse führen zu einer Aufrechterhaltung gesellschaftlicher Ungleichheiten, setzen Organisationen aber auch Rechts- und Reputationsrisiken aus. Interpretierbare KI-Systeme können dabei helfen, zu erkennen, ob ein Modell voreingenommene Entscheidungen auf der Grundlage geschützter Merkmale wie Rasse, Alter oder Geschlecht trifft. Interpretierbarkeit ermöglicht es den Entwicklern von Modellen, diskriminierende Muster zu erkennen und zu mildern, was zu gerechteren Ergebnissen beiträgt.
Interpretierbares maschinelles Lernen ermöglicht es den Entwicklern von ML-Algorithmen und ML-Modellen, Fehler zu identifizieren und zu beheben. Kein Modell für maschinelles Lernen ist von Anfang an zu 100 % genau. Ohne ein Verständnis für die Argumentation der KI ist das Debugging ein ineffizienter und riskanter Prozess. Wenn sie verstehen, wie das ML-Modell funktioniert, können Entwickler und Data Scientist die Quellen falscher Vorhersagen ermitteln und die Leistung des Modells optimieren. Dieser Prozess erhöht wiederum die Gesamtzuverlässigkeit und unterstützt die Optimierung.
Einige Vorschriften, wie der Equal Credit Opportunity Act (ECOA) in den Vereinigten Staaten oder die Datenschutz-Grundverordnung (DSGVO) in der Europäischen Union, verlangen, dass Entscheidungen, die von automatisierten Systemen getroffen werden, transparent und erklärbar sind. Und eine wachsende Zahl von KI-spezifischen Vorschriften, darunter das EU-KI-Gesetz der Europäischen Union, setzen Standards für die Entwicklung und Nutzung von KI. Interpretierbare KI-Modelle können klare Erklärungen für ihre Entscheidungen liefern und so dazu beitragen, diese regulatorischen Anforderungen zu erfüllen. Die Interpretierbarkeit kann auch bei Fragen der Rechnungsprüfung, Haftung und des Datenschutzes von Nutzen sein.
Ohne Interpretierbarkeit haben Entwickler und Forscher möglicherweise Schwierigkeiten, KI-Erkenntnisse in umsetzbare Ergebnisse zu übersetzen oder die Technologie durch Änderungen voranzutreiben. Die Interpretierbarkeit erleichtert den Transfer von Wissen über die Grundlagen und Entscheidungen eines Modells zwischen den Stakeholdern und die Nutzung dieses Wissens zur Information über andere Modellentwicklungen.
Der Forscher Nigam Shah von der Stanford University unterscheidet drei Hauptarten der Interpretierbarkeit: die Interpretierbarkeit durch Ingenieure, die kausale Interpretierbarkeit und die vertrauensbildende Interpretierbarkeit.1
Dieser Typ konzentriert sich darauf, wie das KI-Modell zu seiner Ausgabe gelangt ist. Dazu gehört das Verständnis der internen Funktionsweise des Modells. Dies ist für Entwickler und Forscher relevant, die das Modell debuggen oder verbessern müssen.
Diese Art konzentriert sich darauf, warum das Modell seine Ausgabe produziert hat. Dabei werden die Faktoren ermittelt, die den größten Einfluss auf die Vorhersagen des Modells haben, und wie sich Änderungen dieser Faktoren auf die Ergebnisse auswirken.
Diese Art konzentriert sich auf die Bereitstellung von Erklärungen, die Vertrauen in die Ausgaben des Modells schaffen. Dabei wird der Entscheidungsprozess des Modells auf eine Weise dargestellt, die für die Benutzer verständlich und nachvollziehbar ist, auch wenn sie keine technischen Fachkenntnisse haben.
Die Interpretierbarkeit von KI-Modellen wird durch mehrere Merkmale beeinflusst:
Intrinsische Interpretierbarkeit bezieht sich auf Modelle, die von Natur aus interpretierbar sind, wie z. B. Decision Trees und lineare Regressionsmodelle. Ihre einfachen Strukturen sind leicht zu verstehen. Die Post-hoc-Interpretierbarkeit umfasst jedoch die Anwendung von Interpretationsmethoden auf vorab trainierte Modelle, um deren Verhalten zu erklären. Eine Post-hoc-Interpretation eignet sich am besten für komplexere oder Blackbox-Modelle.
Die lokale Interpretierbarkeit konzentriert sich auf die Erklärung einzelner Vorhersagen und hilft zu zeigen, warum das Modell ein bestimmtes Ergebnis erzielt hat. Die globale Interpretierbarkeit zielt darauf ab, das Verhalten des Modells über den gesamten Datensatz hinweg zu verstehen und seine allgemeinen Muster und Trends aufzuzeigen.
Modellspezifische Interpretierbarkeitsmethoden nutzen die interne Struktur eines Modells, um Erklärungen zu liefern. Modellagnostische Methoden funktionieren mit jeder Art von Modell.
Verschiedene Methoden können die Interpretierbarkeit von KI-Modellen herstellen.
Einige Modelle sind so einfach, dass sie sich intrinsisch interpretieren lassen. Diese von Natur aus interpretierbaren Modelle stützen sich auf einfache Strukturen wie Decision Trees, regelbasierte Systeme und lineare Regressionen. Der Mensch kann die Entscheidungsmuster und -prozesse linearer Modelle leicht nachvollziehen.
Komplexere Modelle erfordern eine Post-hoc-Interpretation, bei der Interpretationsmethoden auf vorab trainierte Modelle angewendet werden, um die Ausgabe des Modells zu erklären. Zu den gängigen Methoden der Post-hoc-Interpretation gehören:
LIME hilft, die Vorhersagen eines Modells zu erklären, indem es sich jeweils auf eine einzige Vorhersage konzentriert. Dazu wird ein Simpler, interpretierbares Modell erstellt, das Verhalten des komplexen Modells für diese spezifische Vorhersage nachahmt. Mithilfe der Funktionszuordnung wird der Einfluss einer bestimmten Eigenschaft (wie Form, Farbe oder ein anderer Datenpunkt) auf die Ausgabe des Modells bestimmt. Zum Beispiel nimmt es eine bestimmte Vorhersage und generiert dann viele ähnliche Instanzen, indem es die Funktionswerte leicht verändert oder anpasst. Von dort aus erstellt es ein einfacheres, besser interpretierbares Modell, das auf diesen „gestörten“ Funktionswerten und ihren Ergebnissen basiert. Kurz gesagt bietet LIME eine vereinfachte, lokale Erklärung dafür, wie sich das komplexe Modell verhalten würde.
SHAP ist ein kooperativer Ansatz zur Interpretierbarkeit im Stil der Spieltheorie, der alle möglichen Kombinationen von Merkmalen und deren Auswirkungen auf die Vorhersage berücksichtigt. Dabei wird jedem Merkmal ein Wert (ein sogenannter Shapley-Wert) zugewiesen, der darauf basiert, wie viel es zur Vorhersage in verschiedenen Szenarien beiträgt. SHAP kann mit jedem maschinellen Lernsystem arbeiten. Es bietet sowohl lokale Erklärungen für einzelne Vorhersagen, die von Algorithmen des maschinellen Lernens geliefert werden, als auch globale Erklärungen für das Modell als Ganzes. Aufgrund der hohen Rechenkomplexität kann SHAP jedoch zu einer langsameren und teureren Methode werden.
PDPs zeigen, wie sich eine Funktion durchschnittlich auf die Vorhersagen des Modells im gesamten Datensatz auswirkt. Sie helfen dabei, die Beziehung zwischen einer Funktion und der Ausgabe des Modells zu visualisieren, wobei alle anderen Funktionen konstant gehalten werden. Diese Methode eignet sich für die Interpretation einer kleinen Anzahl von Funktionen oder wenn sich die Stakeholder auf eine bestimmte Teilmenge von Funktionen konzentrieren möchten.
ICE-Diagramme zeigen, wie stark ein vorhergesagtes Ergebnis von einer bestimmten Funktion abhängt. Sie ähneln PDPs, zeigen jedoch die Beziehung zwischen eine Funktion und der Ausgabe des Modells für einzelne Instanzen, anstatt die Durchschnittswerte über den Datensatz zu ermitteln. Sie können PDPs ergänzen, indem sie einen detaillierteren Überblick über das Verhalten des Modells bieten – beispielsweise durch Hervorhebung von Variabilität und Darstellung von Interaktionen zwischen Funktionen auf Instanzebene. Und sie sind nützlich, wenn Informatiker oder Stakeholder Sonderfälle oder ungewöhnliche Muster in den Modellvorgängen identifizieren möchten.
Die Interpretierbarkeit von KI ist in jeder Branche wichtig, die KI-Modelle verwendet, um Entscheidungen zu treffen, die sich auf Einzelpersonen oder die Gesellschaft auswirken. Zu den Branchen, in denen die Interpretierbarkeit von KI relevant ist, gehören:
Mediziner nutzen künstliche Intelligenz für Diagnose, Behandlungsempfehlungen und Forschung. Die Interpretierbarkeit kann Ärzten und Patienten dabei helfen, die Entscheidungen eines KI-Modells zu verstehen, ihnen zu vertrauen und Verzerrungen oder Fehler in der Argumentation zu erkennen.
Finanzfachleute können KI nutzen, um Betrug aufzudecken, Risiken zu quantifizieren, Kreditwürdigkeit zu bewerten und Anlageempfehlungen auszusprechen. Interpretierbarkeit ist für die Einhaltung gesetzlicher Vorschriften und Prüfungen in der Finanz- und Bankenbranche unerlässlich. Und wenn man den Entscheidungsprozess eines Modells für Aktivitäten wie Kreditgenehmigungen und Risikomanagement versteht, kann dies dazu beitragen, verzerrte Ergebnisse zu vermeiden.
Der Strafrechtssektor kann KI zur Analyse von Tatorten, DNA und forensischen Beweisen sowie lokalen oder nationalen Verbrechensmustern einsetzen. Nutzer könnten sich auch an KI wenden, um Empfehlungen für die Urteilsverkündung zu erhalten und andere routinemäßige gerichtliche Tätigkeiten auszuführen. Interpretierbarkeit ist entscheidend, um Fairness, Genauigkeit und Rechenschaftspflicht zu gewährleisten.
Einige Ressourcen-Abteilungen nutzen KI zur Lebenslauf-Screening und Kandidatenbewertung. Interpretierbarkeit ist eine Möglichkeit, Diskriminierung im ersten Einstellungsverfahren zu verhindern.
Die Versicherungsbranche nutzt künstliche Intelligenz zur Risikobewertung, Bearbeitung von Versicherungsansprüchen und Preisgestaltung. Die Interpretierbarkeit kann Kunden dabei helfen, ihre Prämien zu verstehen, und Versicherern, ihre Entscheidungen zu rechtfertigen.
Da immer mehr Marketing-, Vertriebs- und Kundenservicefunktionen auf KI-gestützte Chatbot angewiesen sind, kann die Interpretierbarkeit wichtige Sicherheitsvorkehrungen bieten. Wenn klar ist, warum ein Chatbot eine Empfehlung oder Entscheidung trifft, schafft dies Vertrauen in das KI-System und trägt dazu bei, sein Angebot zu verbessern oder zu personalisieren.
Die Interpretierbarkeit bringt einige Herausforderungen und Einschränkungen mit sich.
Oft gibt es einen Kompromiss zwischen Modellleistung und Interpretierbarkeit. Einfachere oder Whitebox-Modelle sind leichter zu interpretieren, weisen jedoch im Vergleich zu komplexen Blackbox-Modellen wie tiefen neuronalen Netzen möglicherweise eine geringere Genauigkeit auf.
Auch Interpretierbarkeit leidet unter einem Mangel an Standardisierung. Verschiedene Methoden können unterschiedliche Erklärungen für dasselbe Modell liefern, was es schwierig macht, sie ohne formale Frameworks zu vergleichen und zu validieren. Und die Interpretierbarkeit ist oft subjektiv. Was für den einen Benutzer leicht verständlich ist, reicht für einen anderen möglicherweise nicht aus.
Einige Experten sind der Meinung, dass Interpretierbarkeit in manchen Fällen nicht notwendig ist oder in anderen Fällen kontraproduktiv sein kann. Wenn das Modell privat ist oder keine signifikanten Auswirkungen hat oder das Problem bereits Gegenstand zahlreicher anerkannter Studien ist, könnte eine bessere Interpretierbarkeit überflüssig oder unnötig sein. In manchen Fällen könnte eine größere Interpretierbarkeit zu Sicherheitsbedenken führen, da mehr Transparenz es schlechten Akteuren ermöglichen könnte, ein System auszunutzen, oder es Benutzern ermöglichen könnte, das System auf eine Weise zu manipulieren, die seine Wirksamkeit untergräbt.
Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.
Erfahren Sie, wie KI-Governance dazu beitragen kann, das Vertrauen Ihrer Mitarbeiter in KI zu stärken, die Akzeptanz und Innovation zu beschleunigen und das Vertrauen Ihrer Kunden zu verbessern.
Bereiten Sie sich auf die EU-Verordnung über künstliche Intelligenz vor und etablieren Sie mithilfe von IBM® Consulting einen verantwortungsvollen KI-Governance-Ansatz.
1 Miller, Katharine. Should AI models be explainable? That depends. Stanford Institute for Human-Centered Artificial Intelligence. März 2021.