Inicio IA y ML (machine learning) Data Quality for AI Data Quality for AI
Revise, repare, refactorice y reponga sus datos para un desarrollo de modelos más rápido y productivo
Iniciar una prueba de la API
fondo negro, verde y azul
Mi opinión es que si el 80 por ciento de nuestro trabajo es la preparación de datos, entonces garantizar la calidad de los datos es el trabajo importante de un equipo de aprendizaje automático. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
Data Quality for AI de IBM Research

Este marco de Data Quality for AI (o DQAI, para abreviar) proporciona todas las herramientas para permitir a los desarrolladores de modelos y científicos de datos implementar un programa formalizado y sistemático de preparación de datos, el paso preliminar y más lento del ciclo de vida del desarrollo de modelos. Este marco es adecuado para los datos que se preparan para tareas de clasificación o regresión supervisadas. Incluye el software necesario para:

— implementar comprobaciones de calidad,
— ejecutar correcciones,
— generar informes de auditoría,
— automatizar todo lo anterior.

Aunque la canalización de tareas es esencial para la escalabilidad y la repetibilidad, las funciones incluidas también pueden utilizarse para la exploración personalizada de datos y la mejora de modelos guiada por humanos. La utilización de los servicios incluidos puede ser productiva en cualquier etapa del ciclo de vida del desarrollo del modelo; la oferta está diseñada para ser especialmente valiosa al principio del procesamiento de datos, en la etapa de preparación de datos.

Además de todo lo que se puede hacer con las fuentes de datos originales, existen métodos que, partiendo de un conjunto de datos de entrada, pueden ayudar a sintetizar nuevos datos (ya sea para complementarlos o para sustituirlos) aprendiendo las restricciones de los datos originales o haciendo que un desarrollador las especifique. Esto puede ser útil cuando los problemas regulatorios o contractuales prohíben el uso directo de datos en un esfuerzo de modelado, cuando se desea explorar conjuntos de datos con diferentes restricciones o cuando se necesitan más datos para el entrenamiento.

Esta oferta es apropiada para su uso en datos tabulares y de series de tiempo y en nuevas modalidades compatibles que se están desarrollando.

Capacidades
Validación de datos

Puntajes de calidad e insights sobre estos, incluso señalando regiones específicas de datos responsables de reducir la puntuación y recomendar cómo se pueden mejorar dichas regiones de datos.


Corrección de datos

Ejecute las recomendaciones proporcionadas por los métodos de análisis de calidad. El kit de herramientas admite una variedad de tipos de datos, incluidos datos tabulares y de series temporales.


Restricciones de datos

El sistema puede aprender o el usuario puede especificar características de los datos (por ejemplo, límites, vacíos, etc.).


Síntesis de datos

Genere un nuevo conjunto de datos que tenga las características y distribuciones del primero.


Pipelining

Combine validadores y correctores junto con restricciones para abordar un caso de uso o flujo de trabajo de la aplicación genera una puntuación general de calidad de datos.


Informes

Documentación automatizada de los cambios que registra las métricas de calidad y las transformaciones de datos aplicadas

¿Qué beneficios puedo obtener en mis operaciones de modelado?
Herramientas completas y compatibles

La calidad de datos para IA sirve como una única fuente compatible para muchos algoritmos disponibles al público, así como métodos novedosos desarrollados exclusivamente por IBM Research.

Ahorros en tiempo y costo

Reduzca el tiempo de creación de valor para un esfuerzo de modelado reduciendo el número de intentos de experimentos y regresiones realizadas en tareas posteriores.

Operaciones formalizadas y simplificadas

Reduzca la barrera para la adopción de la IA en toda la empresa proporcionando herramientas para formalizar y simular el proceso de preparación de datos.

Estandarización y coordinación del equipo

Mejoras transversales en la eficiencia operativa y la productividad para los siguientes roles definidos: administrador de IA, científico de datos, experto en la materia, funcionario de riesgos de IA, usuario de negocios.

Una muestra de las utilidades incluidas
Validación de datos

— Label Purity Check — Data Homogeneity Check — Class Parity Check — Completeness Check — Outlier Detection Check — Feature Correlation Check — Data Bias Check — Feature Redundancy Check —, entre otras

Corrección de datos

— Purity Remediation — Inhomogeneity Remediation — Class Disparity Remediation — Incomplete Remediation — Outlier Removal — Feature Correlation Removal — Data Bias Removal — Feature Redundancy Removal —, entre otras