Dieses Service-Framework Data Quality for AI„ (kurz: DQAI) bietet alle Tools, die es Modellentwicklern und Data Scientists ermöglichen, ein formalisiertes und systematisches Programm zur Datenvorbereitung zu implementieren, dem ersten und zeitaufwändigsten Schritt im Lebenszyklus der Modellentwicklung. Dieses Framework eignet sich für Daten, die für überwachte Klassifizierungs- oder Regressionsaufgaben vorbereitet werden. Es enthält die notwendige Software, um:
- Qualitätsprüfungen durchzuführen,
– Abhilfemaßnahmen durchzuführen,
– Audit-Berichte zu erstellen,
– all dies zu automatisieren.
Während das Pipe-Lining von Aufgaben für die Skalierbarkeit und Wiederholbarkeit unerlässlich ist, können die enthaltenen Funktionen auch für die benutzerdefinierte Datenexploration und die von Menschen geführte Verbesserung von Modellen verwendet werden. Die Nutzung der enthaltenen Dienste kann in jeder Phase des Lebenszyklus der Modellentwicklung produktiv sein. Das Angebot ist so konzipiert, dass es besonders in der frühen Phase der Datenverarbeitung, in der Phase der Datenvorbereitung, wertvoll ist.
Zusätzlich zu all dem, was mit Originaldatenquellen erreicht werden kann, gibt es Methoden, die ausgehend von einem Eingabedatensatz bei der Synthetisierung von neuen Daten helfen können – entweder zur Ergänzung oder als Ersatz –, indem sie Einschränkungen in den Originaldaten lernen oder indem diese von einem Entwickler spezifiziert werden. Dies kann hilfreich sein, wenn regulatorische oder vertragliche Gründe die direkte Verwendung von Daten bei der Modellierung verbieten, wenn es wünschenswert ist, Datensätze mit unterschiedlichen Einschränkungen zu untersuchen, oder wenn mehr Daten für Schulungen benötigt werden.
Dieses Angebot eignet sich sowohl für tabellarische Daten als auch für Zeitreihendaten und neue unterstützte Modalitäten, die derzeit entwickelt werden.
Qualitätsbewertungen und Einblicke in diese Qualitätsbewertungen, sogar mit Hinweisen auf bestimmte Datenbereiche, die für die Verschlechterung der Bewertung verantwortlich sind, und mit Empfehlungen, wie diese Datenbereiche verbessert werden können.
Führen Sie die Empfehlungen der Qualitätsanalysemethoden aus. Das Toolkit unterstützt eine Vielzahl von Datentypen, einschließlich Tabellen- und Zeitseriendaten.
Das System kann lernen oder der Benutzer kann Eigenschaften der Daten angeben (z. B. Grenzen, Lücken, ...).
Generieren Sie einen neuen Datensatz mit den Merkmalen und Verteilungen des ersten.
Kombinieren Sie Validatoren und Remediatoren zusammen mit Einschränkungen, um einen Anwendungsfall oder Anwendungsworkflow zu adressieren, und geben Sie eine Gesamtbewertung der Datenqualität aus
Automatisierte Dokumentation von Änderungen, die Deltaänderungen in Qualitätsmetriken und angewandten Datentransformationen aufzeichnet
Data Quality for AI dient als eine einzige, kompatible Quelle für viele öffentlich verfügbare Algorithmen sowie neuartige Methoden, die exklusiv von IBM Research entwickelt wurden.
Reduzieren Sie die Amortisationszeit für eine Modellierung, indem Sie die Anzahl der versuchten Experimente und realisierten Regressionen in nachgelagerten Aufgaben reduzieren.
Senkung der Hürden für die Einführung von KI im gesamten Unternehmen durch die Bereitstellung von Tools zur Formalisierung und Vereinfachung des Prozesses der Datenaufbereitung
Bereichsübergreifende Verbesserungen der betrieblichen Effizienz und Produktivität bei den folgenden definierten Rollen: AI Steward, Data Scientist, Subject Matter Expert, AI Risk Officer, Geschäftsanwender.
— Prüfung der Reinheit von Kennzeichnungen – Prüfung der Datenhomogenität – Prüfung der Klassenparität – Prüfung der Vollständigkeit – Prüfung der Erkennung von Sonderfällen – Prüfung der Merkmalkorrelation — Prüfung der Datenverzerrung – Prüfung der Merkmalredundanz — und viele mehr
– Wiederherstellung der Reinheit – Beseitigung von Inhomogenität – Beseitigung von Klassenungleichheit – Beseitigung von Unvollständigkeit – Entfernung von Ausreißern – Entfernung von Merkmalkorrelationen – Beseitigung von Datenverzerrungen – Beseitigung von Merkmalredundanzen – und vieles mehr