Accueil Thèmes Réduction des données Qu’est-ce que la réduction des données ?
Découvrir notre plateforme d’IA S’abonner aux actualités de l’IA
Un homme dans une salle de serveurs

Publication : 18 janvier 2024
Contributeurs : Phill Powell, Ian Smalley

Qu’est-ce que la réduction des données ?

La réduction des données est le processus par lequel une organisation s’efforce de limiter la quantité de données qu’elle stocke.

Les techniques de réduction des données visent à réduire la redondance trouvée dans le jeu de données d’origine afin que de grandes quantités de données provenant de sources d’origine puissent être stockées plus efficacement sous forme de données réduites.

D’emblée, il convient de souligner que l’expression « réduction des données » n’équivaut pas automatiquement à une perte d’information. Dans de nombreux cas, la réduction des données signifie seulement que les données sont désormais stockées de manière plus intelligente, par exemple après avoir suivi le processus d’optimisation, puis avoir été réassemblées avec les données associées dans une configuration plus pratique.

La réduction des données n’est pas non plus identique à la déduplication des données, dans laquelle des copies supplémentaires des mêmes données sont purgées à des fins de rationalisation. Plus précisément, la réduction des données combine divers aspects de différentes activités, telles que la déduplication et la consolidation des données, pour atteindre ses objectifs.

Pourquoi la gouvernance de l’IA est un impératif stratégique pour la mise à l’échelle de l’IA d’entreprise

Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.

Contenu connexe

Obtenir le guide sur les modèles de fondation

Une vue plus complète des données

Lorsque l’on aborde les données dans le contexte de la réduction des données, nous parlons souvent de données sous leur forme singulière, par opposition à la forme pluralisée généralement utilisée. L’un des aspects de la réduction des données porte par exemple sur la définition des dimensions physiques réelles des points de données individuels.

La science des données est considérablement impliquée dans les activités de réduction des données. Le contenu peut être assez complexe et difficile à résumer de manière concise, et ce dilemme a donné naissance à son propre terme, l’interprétabilité, ou la capacité d’un humain d’intelligence moyenne à comprendre un modèle de machine learning donné.

Il peut être difficile de saisir la signification de certains de ces termes, car il s’agit de données vues d’une perspective quasi microscopique. Nous faisons généralement référence aux données sous leur forme « macro », mais dans la réduction des données, nous parlons souvent des données dans leur sens le plus « micro ». Plus précisément, la plupart des discussions à ce sujet nécessiteront à la fois des discussions au niveau macro et d’autres à l’extrémité micro de l’échelle.

Avantages de la réduction des données

Lorsqu’une organisation réduit le volume de données qu’elle gère, elle réalise généralement des économies financières considérables grâce à la réduction des coûts de stockage associés à une plus faible consommation d’espace de stockage.

Les méthodes de réduction des données offrent également d’autres avantages, comme une plus grande efficacité des données. Lorsque la réduction des données a été réalisée, les données résultantes sont plus faciles à utiliser de diverses manières pour les méthodes d’intelligence artificielle (IA), y compris pour des applications analytiques sophistiquées des données qui peuvent grandement rationaliser les tâches de prise de décision.

Par exemple, lorsque la virtualisation de stockage est correctement utilisée, elle facilite la coordination entre les environnements de serveurs et de postes de travail, ce qui améliore leur efficacité globale et les rend plus fiables.

Les efforts de réduction des données jouent un rôle clé dans les activités d’exploration de données. Les données doivent être aussi propres et préparées que possible avant d’être extraites et utilisées pour l’analyse des données.

Types de réduction des données

Voici quelques-unes des méthodes à la disposition des organisations pour réduire les données.

Réduction de la dimensionnalité

La notion de dimensionnalité des données sous-tend l’ensemble de ce concept. La dimensionnalité fait référence au nombre d’attributs (ou caractéristiques) attribués à un seul jeu de données. Cependant, un compromis s’opère ici : plus la dimensionnalité est grande, plus le stockage de données exigé par ce jeu de données est important. En outre, plus la dimensionnalité est élevée, plus les données ont tendance à être rares, ce qui complique l’analyse des données aberrantes.

La réduction de la dimensionnalité permet de contrer cela en limitant le « bruit » dans les données et en permettant une meilleure visualisation des données. Un excellent exemple de réduction de la dimensionnalité est la méthode de la transformée en ondelettes, qui aide à la compression d’images en maintenant la distance relative qui existe entre les objets à différents niveaux de résolution.

L’extraction de caractéristiques est une autre transformation possible pour les données : elle convertit les données d’origine en caractéristiques numériques et fonctionne en conjonction avec le machine learning. Elle diffère de l’analyse en composantes principales (ACP), un autre moyen de réduire la dimensionnalité des grands jeux de données, dans lequel un ensemble important de variables est transformé en un ensemble plus petit tout en conservant la plupart des données du grand ensemble.

Réduction de la numérosité

L’autre méthode consiste à sélectionner un format de données plus petit et de moindre intensité pour représenter les données. Il existe deux types de réduction de la numérosité : celle basée sur des méthodes paramétriques et celle basée sur des méthodes non paramétriques. Les méthodes paramétriques telles que la régression se concentrent sur les paramètres du modèle, à l’exclusion des données elles-mêmes. De même, un modèle log-linéaire qui se concentre sur les sous-espaces dans les données peut être utilisé. À l’inverse, les méthodes non paramétriques (comme les histogrammes, qui montrent la façon dont les données numériques sont distribuées) ne reposent pas du tout sur des modèles.

Agrégation de cubes de données

Les cubes de données sont un moyen visuel de stocker des données. Le terme « cube de données » est en fait presque trompeur, car il semble impliquer une notion d’unicité, alors qu’il décrit en réalité un grand cube multidimensionnel composé de cuboïdes plus petits et organisés. Chaque cuboïde représente un aspect de l’ensemble des données contenues dans ce cube de données, en particulier des éléments de données concernant les mesures et les dimensions. L’agrégation de cubes de données est donc la consolidation des données dans le format visuel du cube multidimensionnel, ce qui réduit la taille des données en leur donnant un conteneur unique spécialement conçu à cet effet.

Discrétisation des données

Une autre méthode utilisée pour la réduction des données est la discrétisation des données, dans laquelle un ensemble linéaire de valeurs de données est créé autour d’un ensemble défini d’intervalles qui correspondent chacun à une valeur de données déterminée.

Compression des données

Afin de limiter la taille des fichiers et d’obtenir une compression réussie des données, différents types d’encodage peuvent être utilisés. En général, les techniques de compression de données sont considérées comme utilisant soit la compression sans perte, soit la compression avec perte, et elles sont regroupées en fonction de ces deux types. Dans la compression sans perte, la taille des données est réduite grâce à des techniques d’encodage et à des algorithmes, et les données d’origine complètes peuvent être restaurées si nécessaire. La compression avec perte, quant à elle, utilise d’autres méthodes pour effectuer sa compression, et bien que ses données traitées puissent valoir la peine d’être conservées, elles ne sont pas une copie exacte, comme c’est le cas avec une compression sans perte.

Prétraitement des données

Certaines données doivent être nettoyées, préparées et traitées avant d’être soumises aux processus d’analyse et de réduction des données. Une partie de cette transformation peut impliquer de modifier la nature des données d’analogique à numérique. Le groupement ou « binning » est un autre exemple de prétraitement des données, dans lequel les valeurs médianes sont utilisées pour normaliser divers types de données et garantir l’intégrité des données à tous les niveaux.

Solutions connexes
Durabilité du stockage avec IBM Storage FlashSystem

Profitez d’une situation favorable à votre organisation comme à l’environnement en utilisant le stockage IBM FlashSystem. Consommez moins d’énergie et réalisez des économies, tout en réduisant l’empreinte carbone de votre entreprise.

Découvrir la durabilité du stockage avec IBM FlashSystem

IBM Spectrum Virtualize for Public Cloud

Imaginez une solution qui prend en charge la mise en miroir entre les centres de données sur site et dans le cloud ou entre les centres de données dans le cloud. IBM Spectrum Virtualize for Public Cloud contribue également à la mise en œuvre des stratégies de reprise après incident.

Découvrir IBM Spectrum Virtualize for Public Cloud

IBM Storage-as-a-Service

Bénéficiez des avantages sans vous soucier des inconvénients avec IBM Storage-as-a-Service. Commencez avec le matériel sur site fourni et géré par IBM. Choisissez ensuite un modèle de tarification basé sur la consommation de type cloud, pour une combinaison flexible.

Découvrir IBM Storage-as-a-Service
Ressources Visite guidée d’IBM FlashSystem

Découvrez FlashSystem alimenté par IBM Spectrum Virtualize Software qui utilise la virtualisation symétrique.

Regarder le webinaire sur le stockage durable

Les coûts de l’énergie et les données semblent croître à un rythme exponentiel. Alors que les entreprises sont aux prises avec cette réalité coûteuse, elles ont besoin d’un stockage économe en énergie sur lequel elles peuvent compter.

Outil d’estimation de réduction des données IBM

L’outil d’estimation de réduction des données (DRET) est une fonctionnalité de ligne de commande basée sur l’hôte permettant d’estimer les économies liées à la réduction des données sur les dispositifs en bloc.

Qu’est-ce que la consolidation des données ?

Découvrez pourquoi de nombreuses organisations s’appuient sur des outils de consolidation des données pour gérer leurs entrepôts de données.

Qu'est-ce que le stockage de données ?

Découvrez le b.a.-ba du stockage des données, notamment les différents types de périphériques et de formats proposés.

Qu’est-ce que le stockage flash ?

Les solutions de stockage flash vont des clés USB aux baies de niveau entreprise. Découvrez-en plus.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai Réserver une démo en direct