Qu’est-ce que l’apprentissage semi-supervisé ?

Publication : 12 décembre 2023
Contributeurs : Dave Bergmann

L'apprentissage semi-supervisé est une branche du machine learning qui combine l'apprentissage supervisé et non supervisé, en utilisant à la fois des données étiquetées et non étiquetées pour entraîner des modèles d'intelligence artificielle (IA) sur des tâches de classification et de régression.

Si l'apprentissage semi-supervisé est généralement utilisé sur les mêmes cas d'utilisation que les méthodes d'apprentissage supervisé, il se distingue car il intègre, en plus des données étiquetées requises à l'apprentissage supervisé, des données non étiquetées dans l'entraînement de modèles.

Les méthodes d'apprentissage semi-supervisées sont particulièrement utiles dans les situations où il est difficile ou coûteux d'obtenir un volume suffisant de données étiquetées, mais où les données non étiquetées sont relativement faciles à acquérir en revanche. Dans de tels cas, ni les méthodes d'apprentissage entièrement supervisées ni non supervisées ne fourniront des solutions adéquates.

Données étiquetées et machine learning

L'entraînement des modèles d'IA pour des tâches de prédiction telles que la classification ou la régression requiert en général des données étiquetées : des points de données annotés qui fournissent le contexte nécessaire et présentent les prévisions correctes (en sortie) pour chaque échantillon en entrée. Durant l'entraînement, une fonction de perte mesure la différence (perte) entre les prévisions du modèle pour une entrée donnée et la « vérité terrain » fournie par l'étiquette de cette entrée. Les modèles apprennent de ces exemples étiquetés en employant des techniques qui, comme la descente en pente, ajustent les pondérations du modèle afin de minimiser les pertes. Comme ce processus de machine learning implique activement des humains, on parle ici d'apprentissage « supervisé ».

L'étiquetage correct des données devient très laborieux pour les tâches d'IA complexes. Par exemple, pour entraîner un modèle de classification d'images à distinguer les voitures et les motos, des centaines (voire des milliers) d'images doivent être étiquetées en tant que « voiture » ou « moto ». Pour une tâche de vision par ordinateur plus détaillée, comme la détection d'objets, les humains doivent non seulement annoter les objets contenus dans chaque image, mais aussi leur localisation. Enfin, pour des tâches plus détaillées encore, comme la segmentation d'images, les étiquettes des données doivent délimiter pixel par pixel de différentes portions visuelles pour chaque image.

Dans certains cas, l'étiquetage des données peut donc être particulièrement fastidieux. Dans les utilisations plus spécialisées de l’apprentissage automatique, comme la découverte de médicaments, le séquençage génétique ou la classification des protéines, annoter les données est d'une part extrêmement chronophage, mais nécessite également une expertise très spécifique.

L'apprentissage semi-supervisé permet de tirer le meilleur parti d'une petite quantité de données étiquetées en les alliant à des données non étiquetées qui sont quant à elles relativement abondantes.

Suivre la visite guidée d’IBM watsonx.ai

Studio de développement d’IA nouvelle génération destiné aux entreprises pour l’entraînement, la validation, le réglage et le déploiement de modèles IA.

Contenu connexe

S’abonner aux newsletters d'IBM

Apprentissage semi-supervisé vs apprentissage supervisé vs apprentissage non supervisé

L'apprentissage semi-supervisé peut être considéré comme un compromis entre entre l'apprentissage supervisé et l'apprentissage non supervisé.

Apprentissage semi-supervisé vs apprentissage supervisé

La grande différence entre l'apprentissage automatique semi-supervisé et son équivalent supervisé, c'est que ce dernier peut uniquement être entraîné avec des jeux de données entièrement étiquetés. À l'inverse, l'apprentissage semi-supervisé utilise des échantillons de données étiquetés et non étiquetés dans le processus d'entraînement. Les techniques d'apprentissage semi-supervisé modifient ou complètent un algorithme supervisé (un « apprenant de base » dans ce contexte) pour intégrer des informations provenant d'exemples non étiquetés. Les points de données étiquetés sont employés pour établir les prévisions de l'apprenant de base et ajouter une structure (comme le nombre de classes et leurs caractéristiques de base) au problème d'apprentissage.

L’objectif de l’entraînement d’un modèle de classification est qu’il apprenne une limite de décision précise, autrement dit une ligne(ou, pour les données avec plus de deux dimensions, une surface ou un hyperplan) qui sépare les points de données d’une catégorie de classification des points de données appartenant à une autre catégorie de classification. Si un modèle de classification entièrement supervisé peut en théorie assimiler une limite de décision à partir de quelques points de données étiquetés, il peut peiner à réaliser des généralisations sur des exemples réels, ce qui rend les prédictions du modèle peu fiables.

Le jeu de données classique en « demi-lunes » permet de visualiser les lacunes des modèles supervisés qui reposent sur un trop petit nombre de points de données étiquetés. Si la limite de décision « correcte » est censée séparer les deux demi-lunes, un modèle d'apprentissage supervisé est susceptible de surestimer les quelques points de données étiquetés disponibles. Les données non étiquetés transmettent clairement le contexte utile, mais un algorithme traditionnel supervisé n'est pas apte à traiter ces informations.

Apprentissage semi-supervisé et apprentissage non supervisé

Contrairement à l'apprentissage semi-supervisé (et entièrement supervisé), les algorithmes d'apprentissage non supervisé n'emploient pas de données étiquetées et de fonctions de perte. L'apprentissage non supervisé élimine toute notion de « vérité terrain » par rapport à laquelle la précision du modèle peut être mesurée et optimisée.

Une approche semi-supervisée de plus en plus courante, en particulier pour les grands modèles de langage, consiste à “pré-entraîner“ des modèles avec des tâches non supervisées qui leur enseignent à tirer des représentations significatives de jeux de données non étiquetés. Lorsque de telles tâches intègrent une vérité terrain et une fonction de perte (sans annotation manuelle de données), on parle alors d'apprentissage auto-supervisé. Ensuite, après une « mise au point supervisée » sur une petite quantité de données étiquetées, les modèles pré-entraînés peuvent souvent livrer des résultats comparables à ceux des modèles entièrement supervisés.

Si les méthodes d'apprentissage non supervisées peuvent être utiles dans de nombreux scénarios, le manque de contexte peut les rendre mal adaptées à la classification sans aide extérieure. Prenons en exemple la façon dont un algorithme de clustering classique (qui regroupe des points de données en un nombre prédéterminé de clusters selon leur proximité les uns aux autres), traiterait un jeu de données en demi-lune.

Apprentissage semi-supervisé vs apprentissage auto-supervisé

Les apprentissages semi-supervisé et auto-supervisé visent tous deux à éliminer la dépendance à une grande quantité de données étiquetées. Mais si l'apprentissage semi-supervisé implique un certain volume de données étiquetées, les méthodes d'apprentissage auto-supervisées telles que les auto-encodeurs sont véritablement non supervisées.

Alors que l'apprentissage supervisé (et semi-supervisé) nécessite une « vérité terrain » externe sous la forme de données étiquetées, les tâches d'apprentissage auto-supervisé dérivent cette vérité de la structure sous-jacente des échantillons non étiquetés. De nombreuses tâches auto-supervisées ne sont pas utiles en elles-mêmes : leur finalité consiste à enseigner aux modèles des représentations de données utiles aux fins des futures « tâches en aval ». C’est pourquoi on les appelle souvent des « tâches prétextes ».

Lorsqu'elles sont combinées à des tâches supervisées en aval, les tâches de prétexte auto-supervisées font donc partie d'un processus d'apprentissage semi-supervisé : une méthode d'apprentissage utilisant à la fois des données étiquetées et non étiquetées pour l'entraînement des modèles.

Comment fonctionne l'apprentissage semi-supervisé ?

L'apprentissage semi-supervisé repose sur certaines hypothèses concernant les données non étiquetées utilisées pour entraîner le modèle et la façon dont les points de données de différentes classes se rapportent les uns aux autres.

Une condition nécessaire de l’apprentissage semi-supervisé (SSL) est que les exemples non étiquetés utilisés dans l’entraînement du modèle doivent être pertinents pour la tâche que le modèle cherche à apprendre. En termes plus formels, le SSL exige que la distribution p(x) des données d’entrée contienne des informations sur la distribution a posteriori p(y|x), c’est-à-dire la probabilité conditionnelle qu’un point de données spécifique (x) appartienne à une certaine classe (y). Ainsi, par exemple, si l’on utilise des données non étiquetées pour entraîner un classificateur d’images à faire la différence les images de chats et de chiens, le jeu de données d’entraînement doit contenir des images de ces deux types d'animaux (les images de chevaux, de motos etc. ne seront pas utiles).

Ainsi, une étude de 2018 sur les algorithmes d'apprentissage semi-supervisé révèle que si « l'augmentation de la quantité de données non étiquetées tend à améliorer les performances des techniques SSL », dans le même temps « l'ajout de données non étiquetées tirées de classes disparates peut en fait nuire aux performances et livrer de moins bons résultats que sans données non étiquetées. »¹

La condition fondamentale selon laquelle p (x) a une relation significative avec p (x|y) donne lieu à de multiples hypothèses quant à la nature de cette relation. Ces hypothèses sont le moteur de la plupart, voire de toutes les méthodes de SSL : en général, tout algorithme d'apprentissage semi-supervisé repose sur la satisfaction (explicite ou implicite) de l'une ou plusieurs des hypothèses suivantes.

Hypothèse de cluster

L’hypothèse de cluster stipule que des points de données appartenant au même cluster (car ils sont plus similaires les uns aux autres qu’aux autres points de données disponibles) appartiendront également à la même classe.

Bien qu'elle est parfois considérée comme une hypothèse indépendante, l'hypothèse de clustering a également été décrite par van Engelen et Hoos comme « une généralisation des autres hypothèses ».² Autrement dit, la détermination des clusters de points de données dépend de la notion de similitude utilisée : l’hypothèse de continuité, l’hypothèse de faible densité et l’hypothèse multiple exploitent chacune simplement une définition différente de ce qui constitue des points de données “similaires“.

Hypothèse de continuité

Les hypothèses de continuité stipulent que si deux points de données, x et x', sont proches dans l'espace en entrée (soit l'ensemble de toutes les valeurs possibles pour x) alors leurs étiquettes respectives y et y' devraient être identiques.

Aussi appelée hypothèse de régularité, cette hypothèse est commune à la plupart des apprentissages supervisés : par exemple, les classificateurs apprennent une approximation significative (ou « représentation ») de chaque classe pertinente pendant l'entraînement. Ensuite, ils déterminent la classification des nouveaux points de données à partir de la représentation qui leur semble la plus similaire.

Dans le contexte du SSL, l'hypothèse de continuité offre en plus l'avantage d'être appliquée de manière transitive aux données non étiquetées. Prenons en exemple un scénario impliquant trois points de données :

un point de données étiqueté, x₁
un point de données non étiqueté, x₂, qui est proche de x₁
Un autre point de données non étiqueté, x ₃, qui est proche de x ₂, mais pas de x₁

L'hypothèse de continuité stipule que x₂ doit avoir la même étiquette que x₁. Elle nous indique également que x₃ doit avoir la même étiquette que x₂. Par conséquent, nous pouvons supposer que les trois points de données ont la même étiquette, car l'étiquette de x₁ est propagée de façon transitive à x₃ en raison de la proximité de x₃ et x₂.

Hypothèse de faible densité

L'hypothèse de faible densité indique que la limite de décision entre les classes ne doit pas traverser de région à haute densité. Autrement dit, la limite de décision doit se situer dans une zone contenant peu de points de données.

L’hypothèse de faible densité pourrait donc être considérée comme une extension de l’hypothèse de cluster (en ce sens qu’un cluster de points de données à haute densité représente une classe, plutôt que la frontière entre les classes) et de l’hypothèse de continuité (en ce sens que plusieurs points de données sont proches entre eux doivent partager la même étiquette, et donc tomber du même côté de la limite de décision).

Ce schéma illustre comment les hypothèses de continuité et de faible densité peuvent former une frontière de décision de façon bien plus intuitive que cela n'est possible avec des méthodes supervisées, qui peuvent uniquement tenir compte d'un très petit nombre de points de données étiquetés.

Hypothèse multiple

Selon l'hypothèse multiple, l'espace d'entrée de haute dimensionnalité englobe plusieurs espaces de dimension inférieure sur lesquels se trouvent tous les points de données, et les points de données sur le même manifold partagent la même étiquette.

Pour y voir plus clair, prenons l'exemple d'une feuille froissée en boule. L'emplacement de tout point sur la surface sphérique ne peut être mappé qu'avec des coordonnées x,y,z tridimensionnelles. Mais si cette boule froissée est maintenant aplatie pour reformer une feuille de papier, ces mêmes points peuvent désormais être cartographiés avec des coordonnées bidimensionnelles x, y. C'est ce que l'on appelle la réduction de dimensionnalité, et cela peut être réalisé mathématiquement via des méthodes telles que les auto-encodeurs ou les convolutions.

Dans le machine learning, les dimensions ne se rapportent pas à l'espace physique habituel, mais à chaque attribut ou caractéristique des données. Par exemple, dans le machine learning, une petite image RVB mesurant 32 x 32 pixels comporte 3 072 dimensions, à savoir 1 024 pixels ayant chacun trois valeurs (rouge, vert et bleu). Il est difficile de comparer des points de données avec autant de dimensions, d'une part en raison de la complexité et de la puissance de calcul requise, mais aussi car la majorité de cet espace de haute dimensionnalité ne contient pas d'informations significatives pour la tâche à accomplir.

L'hypothèse multiple suppose que, lorsqu'un modèle apprend la fonction de réduction de dimensionnalité appropriée pour ignorer les informations qui ne sont pas pertinentes, les points de données disparates convergent vers une représentation plus significative pour laquelle les autres hypothèses de SSL sont plus fiables.

Apprentissage transductif

Les méthodes d'apprentissage transductif utilisent les étiquettes disponibles pour discerner les prédictions d'étiquettes pour un ensemble donné de points de données non étiquetés, afin qu'ils puissent être utilisés par un apprenant de base supervisé.

Tandis que les méthodes inductives visent à entraîner un classificateur capable de modéliser l'espace d'entrée entier (étiqueté et non étiqueté), les méthodes transductives visent seulement à livrer des prévisions d'étiquettes pour des données non étiquetées. Les algorithmes utilisés pour l'apprentissage transductif sont en grande partie distincts des algorithmes qui seront employés par le modèle de classification supervisé pour être entraîné à l'aide de ces données nouvellement étiquetées.

Propagation des étiquettes

En utilisant l'hypothèse de continuité et l'hypothèse de cluster, l'algorithme de propagation des étiquettes, qui est basé sur graphique, calcule la façon dont les étiquettes sont attribuées aux points de données non étiquetés selon leur proximité relative aux points de données étiquetés.

Cet algorithme applique la théorie qui dicte qu'il est possible de cartographier un graphique entièrement connecté quand ses nœuds sont tous des points de données disponibles, à la fois étiquetés et non étiquetés. Plus deux nœuds sont proches en fonction d'une mesure de distance choisie, telle que la distance euclidienne (lien externe à ibm.com), plus l'arête qui les sépare est pondérée dans l'algorithme. À partir des points de données étiquetés, les étiquettes se propagent ensuite de manière itérative parmi les points de données non étiquetés voisins, à l’aide des hypothèses de continuité et de cluster.

Apprentissage actif

Les algorithmes d'apprentissage actif n'automatisent pas l'étiquetage des points de données : ils sont utilisés dans le SSL pour déterminer les échantillons non étiquetés qui livreraient les informations les plus utiles s'ils étaient étiquetés manuellement.³ Dans les environnements semi-supervisés, l'utilisation de l'apprentissage actif a obtenu des résultats prometteurs. Par exemple, une étude récente a calculé qu'il permettait de réduire de plus de moitié la quantité de données étiquetées nécessaires pour entraîner efficacement un modèle sur la segmentation sémantique.⁴

Apprentissage inductif

Les méthodes inductives d'apprentissage semi-supervisé visent à entraîner directement un modèle de classification (ou de régression) en utilisant à la fois des données étiquetées et des données non étiquetées.

Les méthodes de SSL inductives peuvent généralement être différenciées par la façon dont elles incorporent les données non étiquetées : par pseudo-étiquetage, via un pré-traitement non supervisé, ou par incorporation directe dans la fonction objectif du modèle.

Méthodes d'encapsulation

Un moyen relativement simple d’étendre les algorithmes supervisés existants à un environnement semi-supervisé consiste d’abord à entraîner le modèle sur les données étiquetées disponibles, ou simplement à utiliser un classificateur préexistant approprié, puis à générer des prédictions de pseudo-étiquettes pour les points de données non étiquetés. Le modèle peut ensuite être ré-entraîné en utilisant à la fois les données étiquetées à l'origine et les données pseudo-étiquetées, sans distinction entre les deux ensembles.

Outre leur simplicité, le principal avantage des méthodes d'encapsulation (ou « wrapper ») réside dans leur compatibilité avec quasiment tous les types d'apprenants de base supervisés. Pour ne pas renforcer des prédictions de pseudo-étiquettes potentiellement inexactes, la plupart des méthodes d’encapsulation intègrent par ailleurs des techniques de régularisation.

Entraînement autonome
Cette méthode d'encapsulation de base requiert des prédictions probabilistes, plutôt que déterministes, pour les pseudo-étiquettes : par exemple, un modèle qui produit « 85 % pour chien, 15 % pour chat » au lieu de simplement annoncer « chien ».

La prédiction probabiliste de pseudo-étiquettes permet aux algorithmes par entraînement autonome d'accepter uniquement les prédictions qui dépassent un certain seuil de confiance, selon un processus semblable à la minimisation d'entropie.⁵ Ce processus peut être réalisé de manière itérative, soit pour optimiser le processus de pseudo-classification, soit pour atteindre un certain nombre d'échantillons pseudo-étiquetés.

Entraînement collaboratif
Ce type de méthode étend le concept d'entraînement autonome en enseignant à plusieurs apprenants de base supervisés comment attribuer des pseudo-étiquettes.

Cette diversification a pour but d'éviter le renforcement de prévisions initiales erronées. Il est donc crucial que les prédictions de chaque apprenant de base ne soient pas fortement corrélées entre elles. Une approche type consiste à utiliser des algorithmes différents pour chaque classificateur. Une autre stratégie courante est, pour chaque classificateur, de se focaliser sur un sous-ensemble différent des données : par exemple, dans le cas de données vidéo, entraîner un apprenant de base sur les données visuelles et l'autre sur les données audio.

Prétraitement non supervisé

À l'inverse des méthodes d'encapsulation (et des algorithmes intrinsèquement semi-supervisés), qui utilisent simultanément des données étiquetées et non étiquetées, certaines méthodes de SSL utilisent des données non étiquetées et étiquetées à des étapes distinctes, avec une phase de prétraitement non supervisée suivie d'une étape supervisée.

Ces techniques peuvent en théorie être utilisées pour tout apprenant de base supervisé, tout comme les méthodes d'encapsulation. Mais contrairement à celles-ci, le modèle supervisé « principal » est au final entraîné uniquement sur des points de données étiquetés dès l'origine (annotés manuellement).

On peut utiliser ces méthodes de prétraitement pour tirer des caractéristiques utiles à partir de données non étiquetées, mener un partitionnement initial des points de données non étiquetés, ou encore appliquer un pré-entraînement en vue de déterminer les paramètres initiaux d'un modèle supervisé (en suivant un processus similaire aux tâches de prétexte dans l'apprentissage auto-supervisé).

Cluster puis étiquette (CTL)
Une technique semi-supervisée simple consiste à agréger tous les points de données (étiquetés et non étiquetés) avec un algorithme non supervisé. En suivant l'hypothèse de clustering, ces groupes peuvent servir à entraîner un modèle de classification indépendant. Si les points de données étiquetés d'un cluster donné appartiennent tous à la même classe, il convient alors de produire des pseudo-étiquettes et de poursuivre de la même façon qu'avec les méthodes d'encapsulation.

Comme le montre l'exemple des « demi-lunes » cité plus haut dans cet article, des méthodes simples (comme celle des k plus proches voisins) peuvent donner des prévisions inadéquates. Des algorithmes de clustering plus perfectionnés, comme DBSCAN (qui implémente l'hypothèse de faible densité),⁶ démontrent une plus grande fiabilité.

Pré-entraînement et extraction de caractéristiques
Une phase de pré-entraînement non supervisé (ou auto-supervisé) permet d'enseigner aux modèles des représentations utiles de l'espace d'entrée, limitant la quantité de données étiquetées requises pour les affiner par apprentissage supervisé.

Une approche courante consiste à utiliser un réseau neuronal, souvent un auto-encodeur, pour apprendre comment incorporer ou représenter les caractéristiques des données d'entrée, puis à utiliser ces caractéristiques apprises pour entraîner un apprenant de base supervisé. Cela implique souvent une réduction de dimensionnalité : une tâche qui appelle à l'utilisation de l'hypothèse multiple.

Méthodes intrinsèquement semi-supervisées

Au lieu de traiter les données non étiquetées au sein d'une étape de pseudo-étiquetage ou de prétraitement séparée, certaines méthodes de SSL intègrent directement les données non étiquetées à la fonction objective de l'apprenant de base.

Machines à vecteurs de support semi-supervisées
Lorsque les points de données de différentes catégories ne peuvent pas être séparés de manière linéaire (quand aucune ligne droite ne peut définir avec précision la limite entre catégories), les algorithmes de machine à vecteur de support (SVM) mappent les données vers un espace de haute dimensionnalité où les catégories peuvent être séparées par un hyperplan. Pour définir cette limite, les algorithmes SVM maximisent la marge entre la limite de décision et les points de données les plus proches de celle-ci, ce qui invoque en pratique l'hypothèse de faible densité.

Dans un paramètre supervisé, un terme de régularisation pénalise l'algorithme lorsque les points de données étiquetés tombent du mauvais côté de la limite de décision. Avec les SVM semi-supervisées (surnommées « S3VM »), cela n'est pas possible pour les points de données non étiquetés (dont la classification est inconnue). En conséquence, les S3VM pénalisent également les points de données se trouvant dans la marge prescrite.

Modèles d'apprentissage profond intrinsèquement semi-supervisés
Diverses structures de réseau neuronal ont été adaptées à l'apprentissage semi-supervisé en ajoutant ou en modifiant les termes de perte couramment utilisés dans celles-ci, rendant possible l'incorporation de points de données non étiquetés dans l'entraînement.

Parmi les architectures d'apprentissage profond semi-supervisées proposées, on trouve les réseaux d'échelles,⁷ les pseudo-ensembles,⁸ l'assemblage temporel⁹ et certaines modifications apportées aux réseaux antagonistes génératifs (GANS).¹⁰

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez en toute facilité l’IA générative, des modèles de fondation et des fonctionnalités de machine learning, et créez des applications d’IA en un clin d’œil, avec moins de données.

Découvrir watsonx.ai

IBM watsonx.data

L'entrepôt de données IBM watsonx.data permet aux entreprises de faire évoluer l'analyse et l'IA avec un magasin de données adapté au besoin, fondé sur une architecture ouverte de data lakehouse, pris en charge par des formats de requête, de gouvernance et de données ouvertes pour accéder aux données et les partager. Vous pouvez vous connecter aux données en quelques minutes, obtenir rapidement des analyses fiables et réduire les coûts associés à votre entrepôt de données.

Découvrir watsonx.data

Ressources sur l’apprentissage semi-supervisé

Des cours et des ressources pour en savoir plus sur l'apprentissage semi-supervisé et sa place dans le contexte plus large du machine learning.

Apprentissage automatique : régression et classification

Explorez deux sous-ensembles importants de machine learning supervisé : la régression et la classification. Découvrez comment entraîner des modèles de régression à prévoir les résultats continus et entraîner des modèles prédictifs à classer les résultats catégoriels.

Qu’est-ce que l’étiquetage des données ?

L'ajout d'une ou plusieurs étiquettes fournit un contexte qui permet à un modèle de machine learning de faire des prédictions précises. Explorez les utilisations et les avantages de l'étiquetage des données, notamment les différentes techniques et les meilleures pratiques.

Comment les données non étiquetées améliorent la généralisation dans l'entraînement autonome

L'entraînement autonome, un algorithme d'apprentissage semi-supervisé, exploite une grande quantité de données non étiquetées pour améliorer l'apprentissage lorsque les données étiquetées sont limitées. Cette étude propose une analyse théorique pour le paradigme d'entraînement autonome itératif connu et prouve les avantages des données non étiquetées dans l'entraînement.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo en direct

Notes de bas de page

¹ "Realistic Evaluation of Deep Semi-Supervised Learning Algorithms"(lien externe à ibm.com), arXiv, 17 juin 2019
² "A survey on semi-supervised learning" (lien externe à ibm.com), Springer, 15 novembre 2019
³ "Transductive active learning – A new semi-supervised learning approach based on iteratively refined generative models to capture structure in data" (lien externe à ibm.com), Information Sciences (Volume 293), 18 septembre 2014
⁴ "Semantic Segmentation with Active Semi-Supervised Learning" ( lien externe à ibm.com), arXiv, 16 octobre 2022
⁵ "Semi-supervised learning by Entropy Minimization" (lien externe à ibm.com), Advances in Neural Information Processing Systems 17, 2004
⁶ "Density-based semi-supervised clustering" (lien externe à ibm.com), Data Mining and Knowledge Discovery, novembre 2010
⁷ "Semi-Supervised Learning with Ladder Networks" (lien externe à ibm.com), arXiv, 24 novembre 2015
⁸ "Learning with Pseudo-Ensembles" (lien externe à ibm.com), arXiv, 16 décembre 2014
⁹ "Temporal Ensembling for Semi-Supervised Learning" (lien externe à ibm.com), arXiv, 15 mars 2017
¹⁰ "Improved Techniques for Training GANs" (lien externe à ibm.com, arXiv, 10 juin 2016