Ce cadre de services Data Quality for AI (ou DQAI) fournit tous les outils permettant aux développeurs de modèles et aux data scientists de mettre en œuvre un programme formalisé et systématique de préparation des données, l'étape préliminaire et la plus longue du cycle de vie du développement du modèle. Ce cadre convient aux données préparées pour des tâches de classification ou de régression supervisées. Il comprend les logiciels nécessaires pour :
— mettre en œuvre des contrôles de qualité,
— exécuter des mesures correctives,
— générer des rapports d'audit,
— automatiser tout ce qui précède.
Bien que la canalisation des tâches soit essentielle pour l'évolutivité et la reproductibilité, les capacités incluses peuvent également être utilisées pour l'exploration de données personnalisées et l'amélioration des modèles guidée par l'homme. L'utilisation des services inclus peut être productive à n'importe quel stade du cycle de développement du modèle, l'offre est conçue pour être particulièrement utile au début du traitement des données, au stade de la préparation des données.
En plus de tout ce qui peut être accompli sur les sources de données originales, il existe des méthodes qui, à partir d'un ensemble de données d'entrée, peuvent aider à synthétiser de nouvelles données - soit pour les compléter, soit pour les remplacer - en apprenant les contraintes dans les données originales ou en les faisant spécifier par un développeur. Cela peut être utile lorsque des questions réglementaires ou contractuelles interdisent l'utilisation directe des données dans un effort de modélisation, lorsqu'il est souhaitable d'explorer des ensembles de données avec des contraintes différentes, ou lorsqu'un plus grand nombre de données est nécessaire pour la formation.
Cette offre est adaptée à l'utilisation de données tabulaires et de séries chronologiques, et de nouvelles modalités de prise en charge sont en cours de développement.
Des scores de qualité et des informations sur ces scores de qualité, y compris des régions spécifiques de données responsables de la réduction du score et des recommandations sur la manière dont ces régions de données peuvent être améliorées.
Appliquez les recommandations fournies par les méthodes de Quality Analysis. Les outils prennent en charge une variété de types de données, dont les données tabulaires et les séries chronologiques.
Le système peut apprendre ou l'utilisateur peut spécifier les caractéristiques des données (par exemple, les limites, les lacunes...)
Générez un nouvel ensemble de données ayant les caractéristiques et les distributions du premier.
La combinaison de validateurs et de correcteurs avec des contraintes pour répondre à un cas d'utilisation ou à un flux de travail d'application permet d'obtenir un score global de qualité des données
Documentation automatisée des changements qui enregistre les variations des indicateurs de qualité et des transformations des données appliquées
Data Quality for AI sert de source unique et compatible pour de nombreux algorithmes accessibles au public ainsi que pour de nouvelles méthodes développées exclusivement par IBM Research.
Réduisez le temps nécessaire à la création de valeur pour un effort de modélisation en réduisant le nombre d'expériences tentées et de régressions réalisées dans les tâches en aval.
Réduisez les obstacles à l'adoption de l'IA dans l'entreprise en fournissant des outils pour formaliser et simplifier le processus de préparation des données
Amélioration de l'efficacité opérationnelle et de la productivité pour les rôles définis suivants : AI Steward, Data Scientist, Subject Matter Expert, AI Risk Officer, Business User.
— Contrôle de la pureté des étiquettes — Contrôle de l'homogénéité des données — Contrôle de parité des classes — Contrôle d'exhaustivité — Contrôle de détection des données aberrantes — Contrôle de corrélation des fonctionnalités — Contrôle du biais des données — Contrôle de redondance des fonctionnalités — etc.
— Résolution de la pureté — Résolution de l'inhomogénéité — Résolution de la disparité des classes — Résolution incomplète — Suppression des données aberrantes — Suppression de la corrélation des fonctionnalités — Suppression des biais de données — Suppression de la redondance des fonctionnalités — etc.