Accueil IA et ML Data Quality for AI Data Quality for AI
Examinez, remédiez, remaniez, réapprovisionnez vos données pour un développement de modèles plus rapide et plus productif
Démarrer une période d'essai de l'API
fond noir, vert et bleu
Selon moi, si 80 % de notre travail consiste à préparer les données, assurer la qualité des données est la tâche la plus importante d'une équipe de machine learning. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
Data Quality for AI par IBM Research

Ce cadre de services Data Quality for AI (ou DQAI) fournit tous les outils permettant aux développeurs de modèles et aux data scientists de mettre en œuvre un programme formalisé et systématique de préparation des données, l'étape préliminaire et la plus longue du cycle de vie du développement du modèle. Ce cadre convient aux données préparées pour des tâches de classification ou de régression supervisées. Il comprend les logiciels nécessaires pour :

— mettre en œuvre des contrôles de qualité,
— exécuter des mesures correctives,
— générer des rapports d'audit,
— automatiser tout ce qui précède.

Bien que la canalisation des tâches soit essentielle pour l'évolutivité et la reproductibilité, les capacités incluses peuvent également être utilisées pour l'exploration de données personnalisées et l'amélioration des modèles guidée par l'homme. L'utilisation des services inclus peut être productive à n'importe quel stade du cycle de développement du modèle, l'offre est conçue pour être particulièrement utile au début du traitement des données, au stade de la préparation des données.

En plus de tout ce qui peut être accompli sur les sources de données originales, il existe des méthodes qui, à partir d'un ensemble de données d'entrée, peuvent aider à synthétiser de nouvelles données - soit pour les compléter, soit pour les remplacer - en apprenant les contraintes dans les données originales ou en les faisant spécifier par un développeur. Cela peut être utile lorsque des questions réglementaires ou contractuelles interdisent l'utilisation directe des données dans un effort de modélisation, lorsqu'il est souhaitable d'explorer des ensembles de données avec des contraintes différentes, ou lorsqu'un plus grand nombre de données est nécessaire pour la formation.

Cette offre est adaptée à l'utilisation de données tabulaires et de séries chronologiques, et de nouvelles modalités de prise en charge sont en cours de développement.

Fonctionnalités
Validation de données

Des scores de qualité et des informations sur ces scores de qualité, y compris des régions spécifiques de données responsables de la réduction du score et des recommandations sur la manière dont ces régions de données peuvent être améliorées.


Résolution des données

Appliquez les recommandations fournies par les méthodes de Quality Analysis. Les outils prennent en charge une variété de types de données, dont les données tabulaires et les séries chronologiques.


Contraintes de données

Le système peut apprendre ou l'utilisateur peut spécifier les caractéristiques des données (par exemple, les limites, les lacunes...)


Synthèse de données

Générez un nouvel ensemble de données ayant les caractéristiques et les distributions du premier.


Principe du pipeline

La combinaison de validateurs et de correcteurs avec des contraintes pour répondre à un cas d'utilisation ou à un flux de travail d'application permet d'obtenir un score global de qualité des données


Production de rapports

Documentation automatisée des changements qui enregistre les variations des indicateurs de qualité et des transformations des données appliquées

Quels avantages puis-je tirer de mes opérations de modélisation ?
Outils complets et compatibles

Data Quality for AI sert de source unique et compatible pour de nombreux algorithmes accessibles au public ainsi que pour de nouvelles méthodes développées exclusivement par IBM Research.

Gains de temps et d'argent

Réduisez le temps nécessaire à la création de valeur pour un effort de modélisation en réduisant le nombre d'expériences tentées et de régressions réalisées dans les tâches en aval.

Opérations formalisées et simplifiées

Réduisez les obstacles à l'adoption de l'IA dans l'entreprise en fournissant des outils pour formaliser et simplifier le processus de préparation des données

Standardisation et coordination des équipes

Amélioration de l'efficacité opérationnelle et de la productivité pour les rôles définis suivants : AI Steward, Data Scientist, Subject Matter Expert, AI Risk Officer, Business User.

Exemples de services publics inclus
Validation de données

— Contrôle de la pureté des étiquettes — Contrôle de l'homogénéité des données — Contrôle de parité des classes — Contrôle d'exhaustivité — Contrôle de détection des données aberrantes — Contrôle de corrélation des fonctionnalités — Contrôle du biais des données — Contrôle de redondance des fonctionnalités — etc.

Résolution des données

— Résolution de la pureté — Résolution de l'inhomogénéité — Résolution de la disparité des classes — Résolution incomplète — Suppression des données aberrantes — Suppression de la corrélation des fonctionnalités — Suppression des biais de données — Suppression de la redondance des fonctionnalités — etc.