Datenqualität für KI-API

Ich bin der Meinung, dass, wenn 80 Prozent unserer Arbeit in der Datenaufbereitung besteht, die Sicherstellung der Datenqualität die wichtige Aufgabe eines Teams für maschinelles Lernen ist. Andrew Ng,

Professor of AI at Standford University and founder of DeepLearning.AI

March 2021 https://www.deeplearning.ai/the-batch/issue-84/

Datenqualität für KI von IBM® Research

Dieses Service-Framework Data Quality for AI„ (kurz: DQAI) bietet alle Tools, die es Modellentwicklern und Data Scientists ermöglichen, ein formalisiertes und systematisches Programm zur Datenvorbereitung zu implementieren, dem ersten und zeitaufwändigsten Schritt im Lebenszyklus der Modellentwicklung. Dieses Framework eignet sich für Daten, die für überwachte Klassifizierungs- oder Regressionsaufgaben vorbereitet werden. Es enthält die notwendige Software, um:

- Qualitätsprüfungen durchzuführen,
– Abhilfemaßnahmen durchzuführen,
– Audit-Berichte zu erstellen,
– all dies zu automatisieren.

Während das Pipe-Lining von Aufgaben für die Skalierbarkeit und Wiederholbarkeit unerlässlich ist, können die enthaltenen Funktionen auch für die benutzerdefinierte Datenexploration und die von Menschen geführte Verbesserung von Modellen verwendet werden. Die Nutzung der enthaltenen Dienste kann in jeder Phase des Lebenszyklus der Modellentwicklung produktiv sein. Das Angebot ist so konzipiert, dass es besonders in der frühen Phase der Datenverarbeitung, in der Phase der Datenvorbereitung, wertvoll ist.

Zusätzlich zu all dem, was mit Originaldatenquellen erreicht werden kann, gibt es Methoden, die ausgehend von einem Eingabedatensatz bei der Synthetisierung von neuen Daten helfen können – entweder zur Ergänzung oder als Ersatz –, indem sie Einschränkungen in den Originaldaten lernen oder indem diese von einem Entwickler spezifiziert werden. Dies kann hilfreich sein, wenn regulatorische oder vertragliche Gründe die direkte Verwendung von Daten bei der Modellierung verbieten, wenn es wünschenswert ist, Datensätze mit unterschiedlichen Einschränkungen zu untersuchen, oder wenn mehr Daten für Schulungen benötigt werden.

Dieses Angebot eignet sich sowohl für tabellarische Daten als auch für Zeitreihendaten und neue unterstützte Modalitäten, die derzeit entwickelt werden.

Funktionalität

Datenvalidierung

Qualitätsbewertungen und Einblicke in diese Qualitätsbewertungen, sogar mit Hinweisen auf bestimmte Datenbereiche, die für die Verschlechterung der Bewertung verantwortlich sind, und mit Empfehlungen, wie diese Datenbereiche verbessert werden können.

Datensanierung

Führen Sie die Empfehlungen der Qualitätsanalysemethoden aus. Das Toolkit unterstützt eine Vielzahl von Datentypen, einschließlich Tabellen- und Zeitseriendaten.

Dateneinschränkungen

Das System kann lernen oder der Benutzer kann Eigenschaften der Daten angeben (z. B. Grenzen, Lücken, ...).

Datensynthese

Generieren Sie einen neuen Datensatz mit den Merkmalen und Verteilungen des ersten.

Pipelining

Kombinieren Sie Validatoren und Remediatoren zusammen mit Einschränkungen, um einen Anwendungsfall oder Anwendungsworkflow zu adressieren, und geben Sie eine Gesamtbewertung der Datenqualität aus

Berichterstellung

Automatisierte Dokumentation von Änderungen, die Deltaänderungen in Qualitätsmetriken und angewandten Datentransformationen aufzeichnet

Welche Vorteile kann ich bei meinen Modellierungsvorgängen erzielen?

Umfassende, kompatible Tools

Data Quality for AI dient als eine einzige, kompatible Quelle für viele öffentlich verfügbare Algorithmen sowie neuartige Methoden, die exklusiv von IBM Research entwickelt wurden.

Zeit- und Kostenersparnis

Reduzieren Sie die Amortisationszeit für eine Modellierung, indem Sie die Anzahl der versuchten Experimente und realisierten Regressionen in nachgelagerten Aufgaben reduzieren.

Formalisierte und vereinfachte Abläufe

Senkung der Hürden für die Einführung von KI im gesamten Unternehmen durch die Bereitstellung von Tools zur Formalisierung und Vereinfachung des Prozesses der Datenaufbereitung

Team-Standardisierung und -koordination

Bereichsübergreifende Verbesserungen der betrieblichen Effizienz und Produktivität bei den folgenden definierten Rollen: AI Steward, Data Scientist, Subject Matter Expert, AI Risk Officer, Geschäftsanwender.

Ein Beispiel der enthaltenen Dienstprogramme

Datenvalidierung

— Prüfung der Reinheit von Kennzeichnungen – Prüfung der Datenhomogenität – Prüfung der Klassenparität – Prüfung der Vollständigkeit – Prüfung der Erkennung von Sonderfällen – Prüfung der Merkmalkorrelation — Prüfung der Datenverzerrung – Prüfung der Merkmalredundanz — und viele mehr

Datensanierung

– Wiederherstellung der Reinheit – Beseitigung von Inhomogenität – Beseitigung von Klassenungleichheit – Beseitigung von Unvollständigkeit – Entfernung von Ausreißern – Entfernung von Merkmalkorrelationen – Beseitigung von Datenverzerrungen – Beseitigung von Merkmalredundanzen – und vieles mehr