Qu’est-ce que la reconnaissance vocale ?

Également connue sous le nom d’ASR, de reconnaissance de la parole par ordinateur ou de speech-to-text, la reconnaissance automatique de la parole est une fonctionnalité qui permet à un programme de traiter la parole humaine dans un format écrit.

Bien que la reconnaissance automatique de la parole soit souvent confondue avec la reconnaissance vocale, elle se concentre sur la conversion de la parole d’un format verbal à un format textuel, tandis que la reconnaissance vocale cherche simplement à identifier la voix d’un utilisateur.

IBM joue un rôle de premier plan dans le domaine de la reconnaissance vocale depuis sa création, avec la sortie de « Shoebox » en 1962. Cette machine avait la capacité de reconnaître 16 mots différents, faisant ainsi progresser les travaux initiaux des laboratoires Bell dans les années 1950. Cependant, IBM ne s’est pas arrêté là, et a continué à innover au fil des années, en lançant l’application Simply Speaking en 1996. Ce logiciel de reconnaissance vocale avait un vocabulaire de 42 000 mots, prenait en charge l'anglais et l'espagnol, et comprenait un dictionnaire d'orthographe de 100 000 mots.

Alors que la technologie vocale avait un vocabulaire limité à ses débuts, elle est utilisée dans de nombreux secteurs aujourd'hui, tels que l'automobile, la technologie et la santé. Son adoption ne cesse de se renforcer ces dernières années grâce aux progrès réalisés dans le domaine de l'apprentissage profond et du big data. Une étude (lien externe à ibm.com) montre que ce marché devrait représenter 24,9 milliards de dollars d’ici 2025.

Apprendre à utiliser Presto

Découvrez l'e-book gratuit d'O'Reilly pour apprendre à vous lancer avec Presto, le moteur SQL open source destiné à l'analyse des données.

Contenu connexe

Obtenir le guide sur les modèles de fondation

Principales caractéristiques d’une reconnaissance vocale efficace

De nombreuses applications et appareils de reconnaissance vocale sont disponibles, mais les solutions les plus avancées utilisent l’IA et le machine learning. Elles intègrent la grammaire, la syntaxe, la structure et la composition des signaux audio et vocaux pour comprendre et traiter la reconnaissance vocale. Idéalement, elles apprennent au fur et à mesure, en adaptant leurs réponses à chaque interaction.

Les meilleurs systèmes permettent également aux organisations de personnaliser et d’adapter la technologie à leurs besoins spécifiques, qu’il s’agisse du langage, des nuances dans la voix ou de la reconnaissance de la marque. Par exemple :

Pondération linguistique : améliorez la précision en pondérant les mots spécifiques qui sont prononcés fréquemment (tels que les noms de produits ou le jargon sectoriel), au-delà des termes déjà présents dans le vocabulaire de base.
Étiquetage des locuteurs : produisez une transcription qui cite ou balise les contributions de chaque intervenant à une conversation à plusieurs participants.
Entraînement acoustique : vous devez prendre en compte l’aspect acoustique de l’entreprise. Plus spécifiquement, vous devez entraîner le système à s’adapter à un environnement acoustique particulier (comme le bruit ambiant d’un centre d’appel) et à l’identité vocale des locuteurs (hauteur de la voix, volume et rythme).
Filtrage des termes grossiers ou obscènes : utilisez des filtres pour identifier certains mots ou expressions et « aseptiser » ainsi la sortie vocale.

Pendant ce temps, la reconnaissance vocale continue de progresser. Des entreprises, comme IBM, font des percées dans plusieurs domaines, afin d'améliorer l'interaction entre l'homme et la machine.

Algorithmes de reconnaissance vocale

Les nombreux aléas de la parole humaine en ont rendu le développement difficile. Ce domaine est considéré comme l’un des plus complexes de l’informatique, car il fait appel à la fois à la linguistique, aux mathématiques et aux statistiques. Les systèmes de reconnaissance vocale sont constitués de quelques composants, tels que l’entrée vocale, l’extraction des caractéristiques, les vecteurs de caractéristiques, un décodeur et une sortie mot. Le décodeur utilise des modèles acoustiques, un dictionnaire de prononciation et des modèles linguistiques pour déterminer la sortie appropriée.

La technologie de reconnaissance vocale est évaluée sur son taux de précision, c’est-à-dire le taux d’erreur sur les mots (« Word Rate Error » ou WER), et sa vitesse. Un certain nombre de facteurs peuvent avoir un impact sur le taux d’erreur sur les mots, notamment la prononciation, l’accent, la hauteur, le volume et le bruit de fond. Atteindre la parité avec les humains, c’est-à-dire un taux d’erreur égal à celui de deux humains qui parlent entre eux, est depuis longtemps l’objectif des systèmes de reconnaissance vocale. Une étude de Lippmann (lien externe à ibm.com) estime que le taux d’erreur sur les mots est d’environ 4 %, mais les résultats n’ont pas pu être confirmés.

Différents algorithmes et techniques de calcul sont utilisés pour reconnaître la parole dans le texte et améliorer la précision de la transcription. Vous trouverez ci-dessous de brèves explications de certaines des méthodes les plus couramment utilisées :

Traitement automatique du langage naturel (NLP) : bien que le NLP ne soit pas nécessairement un algorithme utilisé spécifiquement dans la reconnaissance vocale, il s’agit du domaine de l’intelligence artificielle qui se concentre sur l’interaction entre les humains et les machines par le biais du langage vocal et du texte. De nombreux appareils mobiles intègrent la reconnaissance vocale dans leur système pour effectuer des recherches vocales (comme Siri) ou pour améliorer l’accessibilité des textes.
Modèles de Markov cachés (HMM) : Les modèles de Markov cachés s'appuient sur le modèle de la chaîne de Markov, qui stipule que la probabilité d'un état donné dépend de l'état actuel et non de ses états antérieurs. Alors qu’un modèle de chaîne de Markov est utile pour les événements observables, tels que les entrées de texte, les modèles de Markov cachés nous permettent d’incorporer des événements cachés, tels que les balises de reconnaissance des parties du discours, dans un modèle probabiliste. Ils sont utilisés comme modèles de séquence dans la reconnaissance vocale, en attribuant des étiquettes à chaque unité, c'est-à-dire mots, syllabes, phrases, etc., dans la séquence. Ces étiquettes créent un mappage avec l'entrée fournie, ce qui lui permet de déterminer la séquence d'étiquettes la plus appropriée.
N-grammes : il s’agit du type le plus simple de modèle de langage (LM), qui attribue des probabilités aux phrases ou aux expressions. Un N-gramme est une séquence de N mots. Par exemple, « commander la pizza » est un trigramme ou 3-grammes et « veuillez commander la pizza » est un 4-grammes. La grammaire et la probabilité de certaines séquences de mots sont utilisées pour améliorer la reconnaissance et la précision.
Réseaux neuronaux : principalement utilisés pour les algorithmes d'apprentissage profond, les réseaux neuronaux traitent les données d’entraînement en entrée en imitant l’interconnectivité du cerveau humain au moyen de couches de nœuds. Chaque nœud est composé d’entrées, de poids, d’un biais (ou seuil) et d’une sortie. Si cette valeur de sortie dépasse un seuil donné, elle « déclenche » ou active le nœud, transmettant les données à la couche suivante du réseau. Les réseaux neuronaux apprennent cette fonction de mappage au moyen de l’apprentissage supervisé, apportant des ajustements basés sur la fonction de perte grâce au processus de descente de gradient. Si les réseaux neuronaux ont tendance à être plus précis et à accepter plus de données, cela a un coût en termes d'efficacité des performances, car ils ont tendance à être plus lents à former que les modèles linguistiques classiques.
Identification du locuteur (SD) : les algorithmes d’identification du locuteur identifient et segmentent la parole en fonction de son identité. Cela permet aux programmes de mieux distinguer les individus au cours d’une conversation et est fréquemment appliqué dans les centres d’appels pour distinguer les clients et les agents commerciaux.

Cas d'utilisation de la reconnaissance vocale

Un grand nombre de secteurs utilisent aujourd’hui différentes applications de la technologie vocale, ce qui permet aux entreprises et aux consommateurs de gagner du temps, voire des vies. Voici quelques exemples :

Secteur automobile : les systèmes de reconnaissance vocale améliorent la sécurité des conducteurs en activant les systèmes de navigation à commande vocale et les capacités de recherche dans les radios des voitures.

Technologie : les agents conversationnels sont de plus en plus présents dans notre vie quotidienne, notamment sur nos appareils mobiles. Nous utilisons des commandes vocales pour y accéder, par exemple sur nos smartphones (avec Google Assistant ou Siri d’Apple pour des tâches comme la recherche vocale) ou sur des haut-parleurs (avec Alexa d’Amazon ou Cortana de Microsoft pour écouter de la musique). Ces agents continueront à s’intégrer aux produits que nous utilisons au quotidien et contribueront ainsi au mouvement de « l’Internet des objets ».

Soins de santé : les médecins et les infirmiers utilisent des applications de dictée pour capturer et consigner les diagnostics des patients et les notes de traitement.

Ventes : la technologie de reconnaissance vocale a quelques applications dans le domaine des ventes. Elle peut aider un centre d’appels à transcrire des milliers d’appels téléphoniques entre des clients et des agents afin d’identifier des modèles d’appels et des problèmes courants. Les chatbots IA peuvent également communiquer avec les consommateurs via une page Web, répondant aux questions courantes et résolvant les demandes de base sans avoir à attendre qu’un agent du centre d’appel soit disponible. Dans les deux cas, les systèmes de reconnaissance vocale contribuent à réduire le temps de résolution des problèmes des consommateurs.

Sécurité : avec l’intégration de la technologie dans notre quotidien, les protocoles de sécurité deviennent une priorité croissante. L’authentification vocale ajoute un niveau de sécurité viable.

Solutions connexes

IBM Watson Speech to Text

Convertissez la parole en texte en utilisant la reconnaissance vocale et la transcription alimentées par l’IA

Découvrir IBM Watson Speech to Text

IBM Watson Text to Speech

Convertissez du texte en parole naturelle dans plusieurs langues et avec plusieurs identités vocales

Découvrir IBM Watson Text to Speech

Solutions IBM Cloud Pak

Logiciel de cloud hybride alimenté par l’IA.

Découvrir les solutions Cloud Pak

Ressources

Découvrez comment la technologie IBM Watson Speech to Text utilise la reconnaissance vocale et la transcription alimentées par l’IA

Activez la transcription vocale en plusieurs langues pour une variété de cas d’utilisation, y compris, mais sans s’y limiter, le libre-service pour les clients, l’assistance aux agents et l’analyse vocale.

IBM Cloud Paks : une voie vers la transformation numérique

Découvrez comment suivre le rythme, repenser l’utilisation de technologies telles que le cloud, l’IA et l’automatisation pour accélérer l’innovation et répondre aux attentes changeantes des clients.

Passer à l’étape suivante

IBM watsonx Assistant aide les entreprises à offrir de meilleures expériences client grâce à un chatbot IA qui comprend le langage de l’entreprise, se connecte aux systèmes d’assistance client existants et se déploie n’importe où grâce à la sécurité et à l’évolutivité de l’entreprise. watsonx Assistant automatise les tâches répétitives et utilise le machine learning pour résoudre les problèmes de support client rapidement et efficacement.

Découvrez watsonx Assistant

Réserver une démo en direct