Inicio IA y ML (machine learning) Data Quality for AI Calidad de datos para IA
Revise, corrija, refactorice y reponga sus datos para un desarrollo de modelos más rápido y productivo
Iniciar una prueba de la API
fondo negro, verde y azul
Mi opinión es que si el 80 por ciento de nuestro trabajo es la preparación de datos, entonces garantizar la calidad de los datos es el trabajo más importante de un equipo de machine learning. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
Calidad de los datos para IA de IBM® Research

Este marco de servicios de calidad de datos para IA (o DQAI, para abreviar) proporciona todas las herramientas para permitir a los desarrolladores de modelos y científicos de datos implementar un programa formalizado y sistemático de preparación de datos, el paso preliminar y más lento del ciclo de vida del desarrollo de modelos. Este marco es adecuado para los datos que se preparan para tareas de clasificación o regresión supervisadas. Incluye el software necesario para:

— implementar controles de calidad,
— ejecutar la corrección,
— generar informes de auditoría,
— automatiza todo lo anterior.

Aunque la canalización de tareas es esencial para la escalabilidad y la repetibilidad, las funciones incluidas también pueden utilizarse para la exploración de datos personalizados y la mejora de modelos guiada por humanos. La utilización de los servicios incluidos puede ser productiva en cualquier etapa del ciclo de vida del desarrollo del modelo, la oferta está diseñada para ser especialmente valiosa al principio del procesamiento de datos, en la etapa de preparación de datos.

Además de todo lo que se puede hacer con las fuentes de datos originales, existen métodos que, partiendo de un conjunto de datos de entrada, pueden ayudar a sintetizar nuevos datos - ya sea para complementarlos o para sustituirlos - aprendiendo las restricciones de los datos originales o haciendo que un desarrollador las especifique. Esto puede ser útil cuando los problemas normativos o contractuales prohíben el uso directo de los datos en un esfuerzo de modelado, cuando es deseable explorar conjuntos de datos con diferentes restricciones o cuando se necesitan más datos para la formación.

Esta oferta es adecuada para su uso en datos tabulares y de series temporales y en las nuevas modalidades compatibles que se están desarrollando.

Prestaciones
Validación de datos

Puntuaciones de calidad e insights sobre esas puntuaciones de calidad, incluso señalando regiones específicas de datos responsables de reducir la puntuación y recomendando cómo se pueden mejorar dichas regiones de datos.


Corrección de datos

Ejecute las recomendaciones proporcionadas por los métodos de análisis de calidad. El kit de herramientas admite una variedad de tipos de datos, incluidos datos tabulares y de serie temporal.


Restricciones de datos

El sistema puede aprender o el usuario puede especificar características de los datos (por ejemplo, límites, espacios, etc.).


Síntesis de datos

Genere un nuevo conjunto de datos que tenga las características y distribuciones del primero.


Canalización

Combinar validadores y remediadores con restricciones para abordar un caso de uso o flujo de trabajo de aplicaciones genera una puntuación general de calidad de datos


Informes

Documentación automatizada de cambios que registra deltachanges en métricas de calidad y transformaciones de datos aplicadas

¿Qué beneficios puedo obtener en mis operaciones de modelado?
Herramientas completas y compatibles

La calidad de los datos para la IA sirve como una única fuente compatible para muchos algoritmos disponibles públicamente, así como nuevos métodos desarrollados exclusivamente por IBM® Research.

Ahorro de tiempo y costes

Reduzca el tiempo de obtención de valor para una acción de modelado reduciendo el número de experimentos intentados y regresiones realizadas en tareas posteriores.

Operaciones formalizadas y simplificadas

Reduzca la barrera de adopción de la IA en toda la empresa proporcionando herramientas para formalizar y simplificar el proceso de preparación de datos

Estandarización y coordinación del equipo

Mejoras transversales en la eficiencia operativa y la productividad para los siguientes roles definidos: administrador de IA, científico de datos, experto en la materia, oficial de riesgos de IA, usuario empresarial.

Una muestra de las utilidades incluidas
Validación de datos

- Comprobación de pureza de etiquetas - Comprobación de homogeneidad de datos - Comprobación de paridad de clases - Comprobación de integridad - Comprobación de detección de valores atípicos - Comprobación de correlación de características - Comprobación de sesgo de datos - Comprobación de redundancia de características - y muchas más

Corrección de datos

— Corrección de pureza — Corrección de falta de homogeneidad — Corrección de disparidad de clases — Corrección incompleta — Eliminación de valores atípicos — Eliminación de correlación de funciones — Eliminación de sesgo de datos — Eliminación de redundancia de funciones — y muchas más