Accueil les sujets Qu'est-ce que l'apprentissage en profondeur ? Qu’est-ce que le deep learning ?
Découvrir la solution de deep learning d’IBM S’abonner aux mises à jour sur l’IA
Collage de pictogrammes associant nuages, diagramme circulaire et graphiques

Mise à jour : 17 juin 2024
Contributeurs : Jim Holdsworth, Mark Scapicchio

Qu’est-ce que le deep learning ?

Le deep learning est une sous-catégorie du machine learning qui utilise des réseaux neuronaux multicouches, appelés réseaux neuronaux profonds, pour simuler le pouvoir de décision complexe du cerveau humain. Une forme ou une autre de deep learning alimente aujourd’hui la plupart des applications d’intelligence artificielle (IA) que nous utilisons.

La principale différence entre le deep learning et le machine learning réside dans la structure de l’architecture du réseau neuronal sous-jacent. Les modèles de machine learning traditionnels (« non profonds »), utilisent des réseaux neuronaux simples, avec une ou deux couches de calcul. Les modèles de deep learning utilisent trois couches ou plus, mais généralement des centaines ou des milliers de couches, pour l’entraînement.

Alors que les modèles d’apprentissage supervisé nécessitent des données d’entrée structurées et étiquetées pour obtenir des résultats précis, les modèles de deep learning peuvent s’appuyer sur un apprentissage non supervisé. Avec l’apprentissage non supervisé, les modèles de deep learning peuvent extraire les caractéristiques, les éléments et les relations dont ils ont besoin pour produire des résultats précis à partir de données brutes non structurées. En outre, ces modèles peuvent même évaluer et affiner leurs sorties pour une précision accrue.

Le deep learning est un aspect de la science des données sur lequel nombre d’applications et de services s’appuient pour améliorer l’automatisation, avec l’exécution de tâches analytiques et physiques sans intervention humaine. Il alimente de nombreux produits et services du quotidien, tels que les assistants numériques, les télécommandes à contrôle vocal, la détection des fraudes à la carte bancaire, les voitures autonomes et l’IA générative. 

Créez des fworkflows d’IA responsables avec la gouvernance de l’IA

Découvrez les éléments constitutifs et les bonnes pratiques pour aider vos équipes à accélérer l’IA responsable.

Contenu connexe

Obtenir l’e-book sur l’IA générative

Comment fonctionne le deep learning

Les réseaux neuronaux, ou réseaux de neurones artificiels, tentent d’imiter le cerveau humain via une combinaison d’entrées de données, de poids et de biais, agissant tous comme des neurones de silicium. Ces éléments fonctionnent de concert pour reconnaître, classer et décrire avec précision les objets dans les données.

Les réseaux neuronaux profonds sont constitués de plusieurs couches de nœuds interconnectés, chacune s’appuyant sur la précédente pour affiner et optimiser la prédiction ou la catégorisation. Cette progression des calculs à travers le réseau est ce que l’on appelle la propagation avant. Les couches d’entrée et de sortie d’un réseau neuronal profond sont appelées couches visibles . La couche d’entrée est celle où le modèle de deep learning ingère les données à traiter, et la couche de sortie est celle où la prédiction ou la classification finale est effectuée.

Un autre processus appelé rétropropagation utilise des algorithmes, l’algorithme de descente de gradient par exemple, pour calculer les erreurs dans les prédictions, puis ajuste les poids et les biais de la fonction en remontant dans les couches pour entraîner le modèle. Ensemble, la propagation avant et la rétropropagation permettent au réseau neuronal de faire des prédictions et de corriger les erreurs éventuelles. Au fil du temps, l’algorithme devient plus précis.

Le deep learning demande une puissance de calcul considérable. Des unités de traitement graphiques (GPU) hautes performances sont idéales, car elles peuvent gérer un grand volume de calculs dans plusieurs cœurs avec une mémoire disponible généreuse. Un cloud computing distribué peut également s’avérer utile. Ce niveau de puissance de calcul est nécessaire pour entraîner des algorithmes profonds via deep learning. Cependant, la gestion de plusieurs GPU sur site peut créer une forte demande en ressources internes et être extrêmement coûteuse à dimensionner. Concernant la configuration logicielle requise, la plupart des applications de deep learning sont codées avec l’un des trois frameworks d’apprentissage suivants : JAX, PyTorch ou TensorFlow.

 

Types de modèles de deep learning

Les algorithmes de deep learning sont incroyablement complexes. De plus, il existe différents types de réseaux neuronaux, adaptés à des problèmes ou à des jeux de données spécifiques. En voici six. Chacun d’entre eux présente ses propres avantages, et ils sont énumérés ici par ordre de développement, chaque modèle successif s’ajustant pour surmonter une faiblesse du modèle précédent.

L’une des faiblesses potentielles que nous pourrions citer, c’est que les modèles de deep learning sont souvent des « boîtes noires », ce qui complique la compréhension de leur fonctionnement interne et pose des problèmes d’interprétabilité. Mais ce défaut est compensé par les avantages globaux d’une précision et d’une évolutivité élevées.

Réseaux neuronaux convolutifs

Les réseaux neuronaux convolutifs (CNN ou ConvNets) sont principalement utilisés dans les applications de vision par ordinateur et de classification des images. Ils peuvent détecter les caractéristiques et les schémas dans les images et les vidéos, permettant l’exécution de tâches telles que la détection d’objets, la reconnaissance d’images, la reconnaissance de formes et la reconnaissance faciale. Ces réseaux exploitent les principes de l’algèbre linéaire, en particulier la multiplication matricielle, pour identifier des motifs dans une image.

Les CNN sont des types spécifiques de réseaux neuronaux, composés de couches de nœuds, contenant une couche d’entrée, une ou plusieurs couches masquées et une couche de sortie. Chaque nœud se connecte à un autre et possède un poids et un seuil associés. Si la valeur de sortie d’un nœud individuel est supérieure à la valeur de seuil spécifiée, ce nœud est activé, envoyant les données à la couche suivante du réseau. Dans le cas contraire, aucune donnée n’est transmise à la couche suivante.

Un CNN comporte au moins trois types de couches principaux : une couche de convolution, une couche de pooling et une couche entièrement connectée (FC). Pour des utilisations complexes, un CNN peut contenir jusqu’à des milliers de couches, chaque couche s’appuyant sur les couches précédentes. Par « convolution », c’est-à-dire en travaillant et en retravaillant l’entrée d’origine, des schémas détaillés peuvent être découverts. Avec chaque couche, le CNN augmente sa complexité, identifiant de plus grandes portions de l’image. Les couches précédentes se concentrent sur des caractéristiques simples, telles que les couleurs et les bords. À mesure que les données image progressent dans les couches du CNN, celui-ci commence à reconnaître des éléments ou des formes plus importants de l’objet jusqu’à ce qu’il identifie enfin l’objet attendu.

Les CNN se distinguent des autres réseaux neuronaux par leurs performances supérieures en matière d’entrées de signaux d’image, de parole ou audio. Avant les CNN, des méthodes manuelles et chronophages d’extraction des caractéristiques étaient utilisées pour identifier des objets dans les images. Cependant, les CNN offrent désormais une approche plus évolutive des tâches de classification des images et de reconnaissance d’objets, et traitent des données de grande dimension. Les CNN peuvent échanger des données entre les couches afin d’en garantir un traitement plus efficace. Bien que des informations puissent être perdues dans la couche de pooling, cela peut être contrebalancé par les avantages des CNN, qui peuvent contribuer à réduire la complexité, à améliorer l’efficacité et à limiter le risque de surajustement. 

Les CNN présentent d’autres inconvénients, car ils sont gourmands en ressources de calcul : cela représente du temps et du budget et nécessite un grand nombre d’unités de traitement graphique (GPU). Ils exigent également l’intervention d’experts hautement qualifiés possédant des connaissances interdisciplinaires, et des tests minutieux des configurations, des hyperparamètres et des configurations.

Réseaux neuronaux récurrents

Les réseaux neuronaux récurrents (RNN) sont généralement utilisés dans les applications de traitement du langage naturel et de reconnaissance automatique de la parole, car ils utilisent des données séquentielles ou de séries temporelles. Les RNN peuvent être identifiés par leurs boucles de rétroaction. Ces algorithmes d’apprentissage sont principalement utilisés avec des données de séries temporelles pour faire des prédictions sur les résultats. Les cas d’utilisation incluent les prévisions boursières ou les prévisionnels de vente, ou bien les problèmes ordinaux ou temporels, tels que la traduction linguistique, le traitement automatique du langage naturel (NLP), la reconnaissance automatique de la parole et le sous-titrage d’images. Ces fonctions sont souvent intégrées dans des applications populaires comme Siri, la recherche vocale et Google Translate.

Les RNN utilisent leur « mémoire » : les informations des entrées antérieures ont une influence sur l’entrée et la sortie en cours. Alors que les réseaux neuronaux profonds traditionnels supposent que les entrées et les sorties sont indépendantes les unes des autres, la sortie des RNN dépend des éléments antérieurs de la séquence. Bien que les événements futurs soient également utiles pour déterminer la sortie d’une séquence donnée, les réseaux neuronaux récurrents unidirectionnels ne peuvent pas tenir compte de ces événements dans leurs prédictions.

Les paramètres des RNN sont partagés sur toutes les couches du réseau, et chaque couche présente le même paramètre de poids, les poids étant ajustés par des processus de rétropropagation et de descente de gradient pour un apprentissage par renforcement.

Les RNN utilisent un algorithme de rétropropagation à travers le temps (BPTT) pour déterminer les gradients, ce qui est légèrement différent de la rétropropagation traditionnelle, car ceci est spécifique aux données de séquence. Les principes de la BPTT sont les mêmes que ceux de la rétropropagation traditionnelle : le modèle s’entraîne lui-même en calculant les erreurs de sa couche de sortie à sa couche d’entrée. La BPTT diffère de l’approche traditionnelle en ce sens qu’elle additionne les erreurs à chaque intervalle temporel, alors que les réseaux à propagation avant n’ont pas besoin d’additionner les erreurs, car ils ne partagent pas de paramètres sur chaque couche.

Un avantage par rapport aux autres types de réseaux neuronaux, c’est que les RNN utilisent à la fois le traitement des données binaires et la mémoire. Les RNN peuvent planifier plusieurs entrées et productions de sorte qu’au lieu de fournir un seul résultat pour une seule entrée, ils peuvent produire des sorties un-à-plusieurs, plusieurs-à-un ou plusieurs-à-plusieurs.

Les RNN offrent également différentes options. Par exemple, le réseau LSTM (longue mémoire à court terme) est supérieur aux RNN simples, car il apprend et agit sur les dépendances à plus long terme.

Cependant, les RNN ont tendance à se heurter à deux problèmes fondamentaux : l’explosion et la disparition de gradients. Ces problèmes sont définis par la taille du gradient, qui correspond à la pente de la fonction de perte le long de la courbe d’erreur.

  • Lorsque le gradient disparaît et qu’il devient trop petit, continuant à se réduire, il modifie les paramètres de poids jusqu’à ce qu’ils deviennent insignifiants, en d’autres termes, nuls (0). Lorsque cela se produit, l’algorithme n’apprend plus.
  • L’explosion des gradients se produit lorsque le gradient est trop grand, ce qui crée un modèle instable. Dans ce cas, les poids du modèle deviennent trop importants et finissent par être représentés par une valeur NaN (Not a Number, pas un nombre). L’une des solutions possibles consiste à réduire le nombre de couches cachées au sein du réseau neuronal, éliminant ainsi une partie de la complexité des modèles de RNN.

Derniers inconvénients : Les RNN peuvent également nécessiter un entraînement prolongé et être difficiles à utiliser sur de grands jeux de données. L’optimisation des RNN est d’autant plus complexe qu’ils comportent de nombreuses couches et de nombreux paramètres.

Auto-encodeurs et auto-encodeurs variationnels

Avec le deep learning, il est désormais possible d’aller au-delà de l’analyse des données numériques, en y ajoutant l’analyse d’images, de la parole et d’autres types de données complexes. Parmi les premiers modèles à y parvenir figurent les auto-encodeurs variationnels (VAE). Ce sont les premiers modèles de deep learning à être largement utilisés pour générer des images et de la parole réalistes. Ils permettent la modélisation générative profonde en facilitant le dimensionnement des modèles : la pierre angulaire de ce que nous appelons l’IA générative.

Les auto-encodeurs fonctionnent en encodant les données non étiquetées dans une représentation compressée, puis en décodant les données dans leur forme d’origine. Les auto-encodeurs simples sont utilisés à diverses fins, notamment pour reconstruire des images corrompues ou floues. Les auto-encodeurs variationnels permettent non seulement de reconstruire les données, mais aussi de produire des variations par rapport aux données d’origine.

Cette capacité à générer de nouvelles données déclenche l’arrivée de nouvelles technologies en succession rapide, depuis les réseaux antagonistes génératifs (GAN) jusqu’aux modèles de diffusion, capables de produire des images toujours plus réalistes, mais fausses. Les VAE préparent ainsi le terrain pour l’IA générative d’aujourd’hui.

Les auto-encodeurs sont constitués de blocs d’encodeurs et de décodeurs, une architecture qui soutient également les grands modèles de langage d’aujourd’hui. Les encodeurs compressent un jeu de données en une représentation dense, en disposant les points de données similaires à proximité dans un espace abstrait. Les décodeurs prélèvent des échantillons dans cet espace pour créer quelque chose de nouveau tout en préservant les caractéristiques les plus importantes du jeu de données.

Le principal avantage des auto-encodeurs, c’est leur capacité à traiter de grands lots de données et à afficher les données d’entrée sous forme compressée, de sorte que les aspects les plus importants ressortent, ce qui facilite la détection des anomalies et les tâches de classification. Cela accélère également la transmission et réduit les besoins en matière de stockage. Les auto-encodeurs peuvent être entraînés sur des données non étiquetées : ainsi, ils peuvent être utilisés en l’absence de données étiquetées. L’entraînement non supervisé permet de gagner du temps : les algorithmes de deep learning apprennent automatiquement et gagnent en précision sans nécessiter d’ingénierie manuelle des caractéristiques. En outre, les VAE peuvent générer de nouvelles données d’échantillon pour la génération de texte ou d’images.

Les auto-encodeurs présentent toutefois des inconvénients. L’entraînement de structures profondes ou complexes peut épuiser les ressources de calcul. Et lors d’un entraînement non supervisé, le modèle pourrait négliger les propriétés nécessaires et simplement répliquer les données d’entrée. Les auto-encodeurs peuvent également parfois négliger les liens entre les données complexes dans les données structurées. De ce fait, ils ne parviennent pas à identifier correctement les relations complexes.

Réseaux antagonistes génératifs

Les réseaux antagonistes génératifs (GAN) sont des réseaux neuronaux utilisés à la fois dans et en dehors de l’intelligence artificielle (IA) pour créer de nouvelles données ressemblant aux données d’apprentissage d’origine. Il peut s’agir d’images de visages humains, mais d’images générées et non pas du visage de vraies personnes. Le terme « antagoniste » s’explique par les va-et-vient entre les deux parties du GAN : le générateur et le discriminateur.

  • Le générateur crée quelque chose : des images, de la vidéo ou de l’audio, puis produit une sortie quelque peu modifiée. Par exemple, un cheval peut être transformé en zèbre avec un certain degré de précision. Le résultat dépend de l’entrée et du niveau d’entraînement des couches dans le modèle génératif pour ce cas d’utilisation.
  • Le discriminateur est l’antagoniste : le résultat génératif (image fausse) est comparé aux images réelles du jeu de données. Le discriminateur essaie de faire la distinction entre les images, les vidéos et les données audio réelles et fausses.

Les GAN s’entraînent eux-mêmes. Le générateur crée des faux tandis que le discriminateur apprend à faire la différence entre les faux générés par le générateur et les exemples réels. Lorsque le discriminateur est capable de reconnaître le faux, le générateur est pénalisé. La boucle de rétroaction se poursuit jusqu’à ce que le générateur produise une sortie que le discriminateur est incapable de distinguer.

Le principal avantage du GAN est de créer des sorties réalistes qu’il peut être difficile de distinguer des originaux, qui à leur tour peuvent être utilisés pour entraîner des modèles de machine learning. La préparation d’un GAN pour l’apprentissage est simple, car ces réseaux sont entraînés à l’aide de données non étiquetées ou avec un étiquetage minime. Il existe toutefois un inconvénient potentiel : le générateur et le discriminateur pourraient se renvoyer la balle pendant longtemps, ce qui épuise le système. L’entraînement a des limites : une quantité énorme de données d’entrée peut être nécessaire pour obtenir une sortie satisfaisante. Un autre problème potentiel, c’est le « mode collapse », lorsque le générateur produit un ensemble limité de sorties au lieu de productions plus variées.

Modèles de diffusion

Les modèles de diffusion sont des modèles génératifs entraînés à l’aide du processus de diffusion avant et arrière d’ajout et d’élimination progressifs du bruit. Les modèles de diffusion génèrent des données (le plus souvent des images) similaires aux données sur lesquelles ils sont entraînés, mais qui écrasent ensuite les données utilisées pour les entraîner. Ils ajoutent progressivement un bruit gaussien aux données d’apprentissage jusqu’à ce qu’elles soient méconnaissables, puis ils apprennent un processus arrière de « débruitage » qui peut synthétiser les sorties (généralement des images) à partir d’un bruit aléatoire en entrée.

Un modèle de diffusion apprend à minimiser les différences entre les échantillons générés et la cible souhaitée. Tout écart est quantifié et les paramètres du modèle sont mis à jour pour minimiser la perte, entraînant le modèle à produire des échantillons ressemblant de près aux données d’apprentissage authentiques.

Au-delà de la qualité de l’image, les modèles de diffusion présentent l’avantage de ne pas nécessiter d’entraînement antagoniste, ce qui accélère le processus d’apprentissage et en offre également un contrôle étroit. L’entraînement est plus stable qu’avec les GAN et les modèles de diffusion ne sont pas autant sujets au « mode collapse ».

Mais, par rapport aux GAN, l’entraînement des modèles de diffusion peut nécessiter plus de ressources de calcul, notamment en termes d’optimisation. IBM Research a également découvert que cette forme d’IA générative peut être détournée par des portes dérobées, permettant aux pirates de contrôler le processus de création d’images : les modèles de diffusion IA peuvent être dupés, et générer des images manipulées.

modèles de transformation

Les modèles Transformer combinent une architecture d’encodeur-décodeur avec un mécanisme de traitement de texte. Ils ont révolutionné la façon dont les modèles de langage sont entraînés. Un encodeur convertit le texte brut non annoté en représentations appelées plongements. Le décodeur combine ces plongements avec les sorties précédentes du modèle et prédit successivement chaque mot d’une phrase.

À partir d’hypothèses de type « combler les trous », l’encodeur apprend les relations des mots et des phrases les uns et les unes par rapport aux autres, créant ainsi une représentation puissante du langage sans avoir à étiqueter les parties du discours et les autres caractéristiques grammaticales. Les modèles Transformer, en fait, peuvent être préentraînés dès le départ sans tâche particulière en tête. Une fois ces représentations puissantes apprises, les modèles peuvent ensuite se spécialiser (avec beaucoup moins de données) et être entraînés pour effectuer une tâche particulière.

Plusieurs innovations rendent cela possible. Les Transformers traitent simultanément les mots d’une phrase, ce qui permet de traiter le texte en parallèle et accélère l’entraînement. Les techniques antérieures, notamment avec les réseaux neuronaux récurrents (RNN), traitaient les mots un par un. Les Transformers apprennent également les positions des mots dans la phrase et les relations entre eux : ce contexte leur permet d’en déduire le sens et de lever l’ambiguïté de mots comme « it » en anglais par exemple, dans les phrases longues.

En éliminant la nécessité de définir une tâche dès le départ, les Transformers permettent désormais de préentraîner facilement les modèles de langage sur de grandes quantités de texte brut, augmentant leur taille de façon spectaculaire. Auparavant, des données étiquetées étaient collectées pour entraîner un modèle sur une tâche spécifique. Avec les Transformers, un modèle entraîné sur une quantité massive de données peut être adapté à plusieurs tâches en l’ajustant à partir d’une petite quantité de données étiquetées propres à chacune de ces tâches.

Les transformeurs de langage sont aujourd’hui utilisés pour des tâches non génératives telles que la classification et l’extraction d’entités, ainsi que pour des tâches génératives telles que la traduction automatique, le résumé et la réponse à des questions. Les modèles Transformer en ont surpris beaucoup par leur capacité à générer des dialogues, des essais et d’autres contenus convaincants.

Les transformeurs de traitement automatique du langage naturel (NLP) offrent une puissance remarquable puisqu’ils peuvent fonctionner en parallèle, traitant simultanément plusieurs parties d’une séquence, accélérant considérablement l’entraînement. Les modèles Transformer suivent également les dépendances à long terme dans le texte, ce qui leur permet de comprendre le contexte global plus clairement et de créer une production de qualité supérieure. En outre, ces transformeurs sont plus évolutifs et plus flexibles : ils peuvent être personnalisés en fonction de la tâche qui leur sera confiée.

Niveau limitations, en raison de leur complexité, les transformeurs sont gourmands en ressources de calcul et leur entraînement est relativement long. En outre, les données d’apprentissage doivent être précises, non biaisées et abondantes pour produire des résultats exacts.

Cas d’utilisation du deep learning

Le nombre d’utilisations de deep learning augmente chaque jour. Voici quelques exemples de la manière dont il aide désormais les entreprises à gagner en efficacité et à mieux servir leurs clients.

Modernisation des applications

L’IA générative peut améliorer les capacités des développeurs et réduire le déficit de compétences qui ne cesse de s’aggraver dans les domaines de la modernisation des applications et de l’automatisation de l’informatique. L’IA générative peut être utilisée pour le codage grâce aux récentes avancées dans les technologies des grands modèles de langage (LLM) et du traitement automatique du langage naturel (NLP). Ce type d’IA générative utilise des algorithmes de deep learning et de grands réseaux neuronaux entraînés sur de vastes jeux de données contenant du code source existant. Le code utilisé pour l’apprentissage provient généralement d’un code accessible au public produit dans le cadre de projets open source.

Les programmeurs peuvent saisir des prompts en texte brut décrivant ce qu’ils attendent du code. Les outils d’IA générative suggèrent des extraits de code ou des fonctions complètes, simplifiant le processus de codage avec la gestion des tâches répétitives et la réduction du codage manuel. L’IA générative peut également traduire du code d’un langage à l’autre, rationalisant ainsi les projets de conversion de code ou de modernisation. Elle peut par exemple mettre à jour les applications héritées en traduisant le langage COBOL en Java.

Vision par ordinateur

La vision par ordinateur est un domaine de l’intelligence artificielle (IA) qui comprend la classification des images, la détection d’objets et la segmentation sémantique. Elle s’appuie sur le machine learning et les réseaux neuronaux pour apprendre aux ordinateurs et aux systèmes d’apprentissage à tirer des informations significatives d’images numériques, de vidéos et d’autres entrées visuelles, et à faire des recommandations ou à prendre des mesures lorsque le système détecte des défauts ou des problèmes. Si l’IA permet aux ordinateurs de réfléchir, la vision par ordinateur leur permet de voir, d’observer et de comprendre.

Étant donné qu’un système de vision par ordinateur est souvent entraîné pour inspecter les produits ou surveiller les actifs en production, il peut généralement analyser des milliers de produits ou de processus par minute, remarquant des défauts ou des problèmes imperceptibles. La vision par ordinateur est utilisée dans des domaines allant du secteur de l’énergie et des services publics à la fabrication, en passant par l’industrie automobile.

La vision par ordinateur a besoin de beaucoup de données, qu’elle analyse de manière répétée jusqu’à discerner et finir par reconnaître les images. Par exemple, pour entraîner un ordinateur à reconnaître les pneus d’automobile, il doit recevoir de grandes quantités d’images de pneus et d’accessoires connexes pour apprendre les différences entre eux et les reconnaître, en particulier un pneu sans défaut.

La vision par ordinateur utilise des modèles algorithmiques qui permettent à l’ordinateur de s’entraîner lui-même sur le contexte des données visuelles. Si suffisamment de données sont transmises au modèle, l’ordinateur « regardera » les données et apprendra lui-même à distinguer une image d’une autre. Les algorithmes permettent à la machine d’apprendre par elle-même : inutile de la programmer à reconnaître une image.

La vision par ordinateur permet aux systèmes d’extraire des informations significatives à partir d’images numériques, de vidéos et d’autres entrées visuelles, et, sur la base de ces entrées, d’agir. Cette capacité à fournir des recommandations la distingue des tâches de reconnaissance d’images simples. Voici quelques domaines d’application courants de la vision par ordinateur :

  • Automobile : Bien que l’ère des voitures autonomes ne soit pas tout à fait une réalité, la technologie sous-jacente a commencé à faire son apparition dans les véhicules, améliorant la sécurité des conducteurs et des passagers grâce à des fonctionnalités telles que la détection du franchissement de voie de circulation.

  • Santé : La vision par ordinateur a été intégrée à la technologie radiologique pour permettre aux médecins de mieux identifier les tumeurs cancéreuses dans une anatomie saine.
  • Marketing : Les plateformes de réseaux sociaux proposent des suggestions quant aux personnes susceptibles de figurer sur les photos publiées sur un profil, ce qui facilite l’identification des amis de l’utilisateur dans les albums photos. 
  • Distribution : La recherche visuelle a été intégrée à certaines plateformes d’e-commerce, ce qui permet aux marques de recommander des articles pour compléter une garde-robe existante.
Assistance clients

L’IA aide les entreprises à mieux comprendre les demandes croissantes des consommateurs et à y répondre. Avec l’essor des achats en ligne hautement personnalisés, des modèles de vente directe au consommateur et des services de livraison, l’IA générative pourrait libérer une foule d’autres avantages susceptibles d’améliorer l’assistance client, la transformation des talents et la performance des applications.

Avec l’IA, les entreprises peuvent adopter une approche centrée sur le client en exploitant les informations précieuses tirées du feedback des clients et des habitudes d’achat. Cette approche fondée sur les données peut contribuer à améliorer la conception et l’emballage des produits, à accroître la satisfaction des clients et à augmenter les ventes.

L’IA générative peut également servir d’assistant cognitif pour l’assistance client, en fournissant des conseils contextuels basés sur l’historique des conversations, l’analyse des sentiments et les transcriptions des centres d’appel. En outre, l’IA générative permet de personnaliser les expériences d’achat, de fidéliser les clients et d’obtenir un avantage concurrentiel.

Travail numérique

Les organisations peuvent augmenter leurs effectifs en créant et en déployant l’automatisation robotisée des processus (RPA) et le travail numérique pour une collaboration avec les utilisateurs humains qui permettra d’accroître la productivité, ou de les aider chaque fois qu’ils en ont besoin. Cela peut par exemple aider les développeurs à accélérer la mise à jour des logiciels existants.

Le travail numérique utilise des modèles de fondation pour automatiser et améliorer la productivité des travailleurs intellectuels en offrant une automatisation en libre-service rapide et fiable, sans obstacles techniques. Pour automatiser les tâches ou les appels d’API, un modèle de remplissage de créneaux basé sur un LLM d’entreprise peut identifier des éléments dans une conversation et rassembler toutes les informations nécessaires à l’exécution d’une action ou à l’appel d’une API sans trop d’efforts manuels.

Au lieu de demander à des experts techniques d’enregistrer et d’encoder des flux d’actions répétitifs pour les travailleurs intellectuels, les automatisations du travail numérique créées sur une base de démonstrations et d’instructions conversationnelles alimentées par des modèles peuvent être utilisées par le travailleur intellectuel pour l’automatisation en libre-service. Par exemple, pour accélérer la création d’applications, les apprentis numériques no-code peuvent aider les utilisateurs finaux, qui n’ont pas l’expertise nécessaire en programmation, en leur offrant l’enseignement, la supervision et la validation du code. 

IA générative

L’IA générative est une catégorie d’IA qui crée du texte, des images, des vidéos, des données ou d’autres contenus de manière autonome en réponse à l’invite ou à la demande d’un utilisateur.

L’IA générative s’appuie sur des modèles de deep learning qui peuvent s’entraîner sur les schémas du contenu existant et générer de nouveaux contenus similaires sur la base de cet apprentissage. Elle trouve ses applications dans de nombreux domaines, notamment le service client, le marketing, le développement de logiciels et la recherche, et représente un énorme potentiel en matière de rationalisation des workflows d’entreprise avec la création et à l’enrichissement rapides et automatisés de contenu. 

L’IA générative excelle dans le traitement de sources de données variées telles que les e-mails, les images, les vidéos, les fichiers audio et le contenu trouvé sur les réseaux sociaux. Ces données non structurées constituent l’épine dorsale de la création de modèles et de l’entraînement en continu de l’IA générative : c’est ce qui lui permet de rester efficace au fil du temps. L’utilisation de ces données non structurées peut améliorer le service client grâce à des chatbots et permettre un routage plus efficace des e-mails. Dans la pratique, il peut s’agir de guider les utilisateurs vers les ressources appropriées, pour les mettre en relation avec le bon agent ou les orienter vers des guides d’utilisation et des FAQ.

Malgré ses limitations et ses risques largement débattus, de nombreuses entreprises poursuivent cette route en étudiant avec prudence comment elles peuvent exploiter l’IA générative pour optimiser leurs workflows internes, et améliorer leurs produits et services. C’est la nouvelle frontière : comment rendre le lieu de travail plus efficace sans créer de problèmes juridiques ou éthiques.

IA générative pour les développeurs
Traitement automatique du langage naturel et reconnaissance vocale

Le traitement automatique du langage naturel (NLP) combine la linguistique informatique (modélisation du langage humain basée sur des règles) avec des modèles statistiques et des modèles de machine learning pour permettre aux ordinateurs et aux appareils numériques de reconnaître, de comprendre et de générer du texte et de la parole. Le NLP optimise des applications et des appareils capables de traduire du texte d’une langue à une autre, de répondre à des commandes tapées ou parlées et de reconnaître ou d’authentifier les utilisateurs par la voix.  Il permet de résumer de grands volumes de texte, d’évaluer l’intention ou le sentiment du texte ou de la parole, et de générer du texte, des images ou d’autres contenus à la demande.

Le NLP statistique est un sous-ensemble du traitement automatique du langage naturel, qui combine des algorithmes informatiques avec des modèles de machine learning et de deep learning. Cette approche permet d’extraire, de classer et d’étiqueter automatiquement les éléments des données textuelles et vocales, puis d’attribuer une probabilité statistique à chaque signification possible de ces éléments. Aujourd’hui, les modèles de deep learning et les techniques d’apprentissage basés sur les RNN permettent aux systèmes de NLP d’apprendre au fur et à mesure qu’ils travaillent et d’extraire un sens toujours plus précis d’énormes volumes de données textuelles et vocales brutes, non structurées et non étiquetées.

Également connue sous le nom d’ASR, de reconnaissance de la parole par ordinateur ou de speech-to-text, la reconnaissance automatique de la parole est une fonctionnalité qui permet à un programme de traiter la parole humaine dans un format écrit.

Bien que la reconnaissance automatique de la parole soit souvent confondue avec la reconnaissance vocale, elle se concentre sur la conversion de la parole d’un format verbal à un format textuel, tandis que la reconnaissance vocale cherche simplement à identifier la voix d’un utilisateur.

Applications industrielles

Les applications du deep learning dans le monde réel sont partout autour de nous, et si bien intégrées dans les produits et services que les utilisateurs ne sont pas conscients de la complexité du traitement de données qui se déroule en arrière-plan. En voici quelques exemples :

Deep learning dans le service client

De nombreuses organisations intègrent des technologies de deep learning dans les processus de leur service clientLes chatbots interviennent dans plusieurs applications, services et portails de service client. Les chatbots traditionnels utilisent le langage naturel et même la reconnaissance visuelle, que l’on trouve généralement dans les menus typiques des centres d’appel. Cependant, les solutions de chatbot plus sophistiquées tentent de déterminer, par l’apprentissage, s’il existe plusieurs réponses à des questions ambiguës en temps réel. Sur la base des réponses qu’il reçoit, le chatbot essaie ensuite de répondre directement à ces questions ou transmet la conversation à un utilisateur humain.

Les assistants virtuels tels que Siri d’Apple, Amazon Alexa ou Google Assistant étendent l’idée d’un chatbot en activant la fonctionnalité de reconnaissance automatique de la parole. Cela permet d’impliquer les utilisateurs de manière inédite et personnalisée.

Analyse des services financiers

Les institutions financières utilisent régulièrement l’analyse prédictive pour encourager le trading algorithmique d’actions, évaluer les risques métier liés à l’approbation des prêts, détecter les fraudes et soutenir la gestion des portefeuilles de crédit et d’investissement des clients.

Tenue des dossiers médicaux

Les capacités de deep learning ont grandement bénéficié au secteur de la santé depuis la numérisation des images et des dossiers médicaux dans les hôpitaux. Les applications de reconnaissance d’images peuvent aider les spécialistes de l’imagerie médicale et les radiologues à analyser et à évaluer plus d’images en moins de temps.

Les forces de l’ordre utilisent le deep learning

Les algorithmes de deep learning peuvent analyser les données transactionnelles et en tirer des enseignements pour identifier des schémas dangereux qui indiquent une possible activité frauduleuse ou criminelle. La reconnaissance automatique de la parole, la vision par ordinateur et d’autres applications de deep learning peuvent améliorer l’efficacité des analyses d’investigation en extrayant des modèles et des preuves à partir d’enregistrements audio et vidéo, d’images et de documents. Grâce à cette capacité, les forces de l’ordre peuvent analyser de grandes quantités de données plus rapidement et avec plus de précision.

Solutions connexes
IBM watsonx

IBM Watsonx est un portefeuille d’applications, de solutions et d’outils prêts à l’emploi conçus pour réduire les coûts et les obstacles liés à l’adoption de l’IA tout en optimisant les résultats de l’IA et en favorisant son utilisation responsable.

Voici IBM watsonx
IBM watsonx Assistant - Chatbot IA

IBM watsonx Assistant est le chatbot IA destiné aux entreprises. Cette technologie d’intelligence artificielle d’entreprise permet aux utilisateurs de créer des solutions d’IA conversationnelle.

Découvrez watsonx Assistant
IBM Watson Studio

Créez, exécutez et gérez des modèles d’IA. Préparez les données et créez des modèles sur n’importe quel cloud à l’aide d’un code open source ou de la modélisation visuelle. Faites des prédictions et optimisez vos résultats.

Découvrir Watson Studio
Ressources Apprentissage pratique gratuit pour les technologies d’IA générative

Découvrez les concepts fondamentaux de l’IA et de l’IA générative, notamment le prompt engineering, les grands modèles de langage et les meilleurs projets open source.

Introduction au deep learning

Explorez cette branche du machine learning : l’entraînement s’effectue sur de grandes quantités de données et implique des unités de calcul travaillant en tandem pour effectuer des prédictions.

Architectures de deep learning

Explorez les principes fondamentaux des architectures de machine learning et de deep learning, et découvrez les applications et les avantages qui y sont associés.

Comparer les frameworks de deep learning

Choisir le bon framework de deep learning en fonction de votre workload individuel est une première étape essentielle.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai Réserver une démo en direct