Este marco de Data Quality for AI (o DQAI, para abreviar) proporciona todas las herramientas para permitir a los desarrolladores de modelos y científicos de datos implementar un programa formalizado y sistemático de preparación de datos, el paso preliminar y más lento del ciclo de vida del desarrollo de modelos. Este marco es adecuado para los datos que se preparan para tareas de clasificación o regresión supervisadas. Incluye el software necesario para:
— implementar comprobaciones de calidad,
— ejecutar correcciones,
— generar informes de auditoría,
— automatizar todo lo anterior.
Aunque la canalización de tareas es esencial para la escalabilidad y la repetibilidad, las funciones incluidas también pueden utilizarse para la exploración personalizada de datos y la mejora de modelos guiada por humanos. La utilización de los servicios incluidos puede ser productiva en cualquier etapa del ciclo de vida del desarrollo del modelo; la oferta está diseñada para ser especialmente valiosa al principio del procesamiento de datos, en la etapa de preparación de datos.
Además de todo lo que se puede hacer con las fuentes de datos originales, existen métodos que, partiendo de un conjunto de datos de entrada, pueden ayudar a sintetizar nuevos datos (ya sea para complementarlos o para sustituirlos) aprendiendo las restricciones de los datos originales o haciendo que un desarrollador las especifique. Esto puede ser útil cuando los problemas regulatorios o contractuales prohíben el uso directo de datos en un esfuerzo de modelado, cuando se desea explorar conjuntos de datos con diferentes restricciones o cuando se necesitan más datos para el entrenamiento.
Esta oferta es apropiada para su uso en datos tabulares y de series de tiempo y en nuevas modalidades compatibles que se están desarrollando.
Puntajes de calidad e insights sobre estos, incluso señalando regiones específicas de datos responsables de reducir la puntuación y recomendar cómo se pueden mejorar dichas regiones de datos.
Ejecute las recomendaciones proporcionadas por los métodos de análisis de calidad. El kit de herramientas admite una variedad de tipos de datos, incluidos datos tabulares y de series temporales.
El sistema puede aprender o el usuario puede especificar características de los datos (por ejemplo, límites, vacíos, etc.).
Genere un nuevo conjunto de datos que tenga las características y distribuciones del primero.
Combine validadores y correctores junto con restricciones para abordar un caso de uso o flujo de trabajo de la aplicación genera una puntuación general de calidad de datos.
Documentación automatizada de los cambios que registra las métricas de calidad y las transformaciones de datos aplicadas
La calidad de datos para IA sirve como una única fuente compatible para muchos algoritmos disponibles al público, así como métodos novedosos desarrollados exclusivamente por IBM Research.
Reduzca el tiempo de creación de valor para un esfuerzo de modelado reduciendo el número de intentos de experimentos y regresiones realizadas en tareas posteriores.
Reduzca la barrera para la adopción de la IA en toda la empresa proporcionando herramientas para formalizar y simular el proceso de preparación de datos.
Mejoras transversales en la eficiencia operativa y la productividad para los siguientes roles definidos: administrador de IA, científico de datos, experto en la materia, funcionario de riesgos de IA, usuario de negocios.
— Label Purity Check — Data Homogeneity Check — Class Parity Check — Completeness Check — Outlier Detection Check — Feature Correlation Check — Data Bias Check — Feature Redundancy Check —, entre otras
— Purity Remediation — Inhomogeneity Remediation — Class Disparity Remediation — Incomplete Remediation — Outlier Removal — Feature Correlation Removal — Data Bias Removal — Feature Redundancy Removal —, entre otras