Qu'est-ce que CAPTCHA ?

CAPTCHA est l'acronyme de « Completely Automated Public Turing test to tell Computers and Humans Apart » (test de Turing public entièrement automatisé pour différencier les ordinateurs des humains). Il regroupe différentes méthodes d'authentification permettant de valider qu'un utilisateur est bien humain, en posant des défis faciles pour les humains mais difficiles à résoudre pour les machines.

Les CAPTCHA empêchent les fraudeurs et les spammeurs d'utiliser des bots pour soumettre des formulaires web à des fins malveillantes.

Les CAPTCHA traditionnels demandaient aux utilisateurs de lire et de retranscrire un texte déformé, illisible par les technologies de reconnaissance optique de caractères (OCR). Les versions plus récentes des CAPTCHA reposent sur l'intelligence artificielle et des analyses comportementales pour authentifier les utilisateurs en fonction de leurs habitudes d'activité, plutôt qu'une simple tâche unique.

De nombreux sites exigent des utilisateurs qu'ils passent un CAPTCHA avant de se connecter, soumettre un formulaire, publier un commentaire, ou effectuer toute autre action que des bots pourraient exploiter. En réussissant le défi, les utilisateurs confirment qu'ils sont bien humains et peuvent ainsi poursuivre leur activité sur le site.

* Un test de Turing, du nom de son créateur Alan Turing, évalue la capacité d'une machine à imiter l'intelligence humaine.

Votre équipe sera-t-elle en mesure de repérer la prochaine attaque de type zero-day à temps ?

Rejoignez les responsables de la sécurité qui font confiance à la Newsletter Think pour obtenir des informations ciblées autour de l’IA, de la cybersécurité, des données et de l’automatisation. Apprenez rapidement grâce à des tutoriels et des fiches explicatives d’experts, envoyés directement dans votre boîte de réception. Consultez la Déclaration de confidentialité d’IBM.

L'évolution des CAPTCHA

À la fin des années 1990 et au début des années 2000, plusieurs équipes ont travaillé en parallèle pour développer les premières formes de technologie CAPTCHA. Leur objectif commun était de lutter contre les activités malveillantes perpétrées par des bots sur Internet. Par exemple, les ingénieurs d'AltaVista souhaitaient empêcher les bots de soumettre des liens malveillants à la base de données du moteur de recherche.

Les premiers systèmes CAPTCHA ont été déposés par la société Sanctum en 1997. Toutefois, le terme CAPTCHA a été introduit en 2003 par un groupe de chercheurs en informatique de l'université Carnegie Mellon, dirigé par Luis von Ahn et Manuel Blum. Cette équipe a été incitée à travailler sur cette technologie par un cadre de Yahoo qui avait fait un exposé sur les problèmes rencontrés par l'entreprise avec les spambots qui s'inscrivaient à des millions de faux comptes de courrier électronique.

Pour résoudre le problème de Yahoo, von Ahn et Blum ont créé un programme informatique qui :

Génère une chaîne de texte aléatoire ;
Crée une image déformée de ce texte (appelée « code CAPTCHA ») ;
Présente cette image à l'utilisateur ;
Demande à l'utilisateur de saisir le texte dans un champ, puis de valider en cochant la case « Je ne suis pas un robot ».

À l'époque, la technologie OCR avait du mal à interpréter ces textes déformés, rendant les bots incapables de résoudre le défi. Si l'utilisateur saisissait correctement la chaîne de caractères, il était alors identifié comme humain et pouvait compléter son inscription ou soumettre un formulaire.

Yahoo a adopté la technologie de l'université Carnegie Mellon pour protéger l'enregistrement des comptes e-mail, réduisant ainsi considérablement les activités des spambots. D'autres entreprises ont rapidement suivi le mouvement pour protéger leurs formulaires web. Cependant, avec le temps, les pirates informatiques ont commencé à développer des algorithmes capables de résoudre les CAPTCHA de manière fiable en exploitant les données des tests réussis. Cela a lancé une véritable course entre les développeurs de CAPTCHA et les cybercriminels, alimentant ainsi l'évolution continue des fonctionnalités des CAPTCHA.

reCAPTCHA v1

Lancé par Luis von Ahn en 2007, reCAPTCHA v1 avait deux objectifs principaux : rendre les CAPTCHA textuels plus difficiles à contourner pour les bots et améliorer la précision de la reconnaissance optique de caractères (OCR) utilisée à l'époque pour numériser des textes imprimés.

Pour atteindre le premier objectif, reCAPTCHA augmentait la distorsion du texte affiché à l'utilisateur, et ajoutait parfois des lignes à travers les caractères.

Le second objectif était atteint en remplaçant une simple image de texte déformé par deux images de mots numérisés à partir de véritables textes, analysés par deux programmes OCR distincts. Le premier mot, ou mot de contrôle, était correctement identifié par les deux programmes. Le second mot, en revanche, était celui que les deux programmes avaient échoué à reconnaître. Si l'utilisateur identifiait correctement le mot de contrôle, reCAPTCHA supposait qu'il s'agissait d'un humain et lui permettait de poursuivre son activité. En outre, il considérait que l'utilisateur avait également identifié correctement le second mot, et la réponse était utilisée pour affiner les futurs résultats de l'OCR.

Ainsi, reCAPTCHA améliorait à la fois la sécurité contre les bots et la précision des textes numérisés pour des archives comme celles de l'Internet Archive et du New York Times. Ironiquement, cette technologie a également contribué à l'amélioration des algorithmes d'intelligence artificielle et de machine learning, au point qu'en 2014, ces derniers pouvaient identifier les CAPTCHA les plus déformés dans 99,8 % des cas.

En 2009, Google a acquis reCAPTCHA et l'a utilisé pour numériser des textes pour Google Books, tout en offrant cette technologie à d'autres organisations. Cependant, à mesure que la technologie OCR progressait, les algorithmes d'intelligence artificielle capables de résoudre efficacement les CAPTCHA textuels se perfectionnaient également. En réponse, Google a introduit en 2012 des CAPTCHA basés sur la reconnaissance d'images, remplaçant le texte déformé par des images issues de Google Street View. Les utilisateurs prouvaient leur humanité en identifiant des objets du monde réel, tels que des lampadaires ou des taxis. En plus de contourner les avancées des bots en OCR, ces reCAPTCHA basés sur des images étaient plus pratiques pour les utilisateurs mobiles.

reCAPTCHA v2 de Google : Le reCAPTCHA sans CAPTCHA

En 2014, Google a lancé reCAPTCHA v2, qui remplaçait les défis textuels et visuels par une simple case à cocher « Je ne suis pas un robot ». Lorsqu'un utilisateur coche cette case, reCAPTCHA v2 analyse ses interactions avec la page web, évaluant des facteurs comme la vitesse de frappe, les cookies, l'historique de l'appareil et l'adresse IP pour déterminer si l'utilisateur est probablement un humain. Le mouvement de la souris lors du clic sur la case fait également partie de l'analyse : les mouvements humains sont plus chaotiques, tandis que ceux des bots sont plus réguliers et précis. Si reCAPTCHA v2 soupçonne qu'un utilisateur est un bot, il présente un défi basé sur des images.

reCAPTCHA v3

Lancé en 2018, reCAPTCHA v3 abandonne la case à cocher et renforce l'analyse des risques pilotée parr l'IA introduite par reCAPTCHA v2. Ce système s'intègre aux pages web via une API JavaScript et fonctionne en arrière-plan, en évaluant le comportement des utilisateurs sur une échelle de 0,0 (probablement un bot) à 1,0 (probablement un humain). Les administrateurs de sites peuvent configurer des actions automatisées pour les utilisateurs ayant un score bas. Par exemple, les commentaires d'utilisateurs à faible score peuvent être soumis à une modération avant publication, ou ces utilisateurs peuvent être invités à passer par une authentification à étapes avant de se connecter à un compte.

Les méthodes d'authentification basées sur l'IA, comme reCAPTCHA v3, cherchent à contourner le problème des pirates informatiques. En supprimant les défis interactifs du processus de vérification CAPTCHA, elles empêchent les pirates d'utiliser les données des défis précédemment résolus pour entraîner des bots à décrypter de nouveaux CAPTCHA. C'est pourquoi les experts pensent que les CAPTCHA basés sur l'IA pourraient devenir la norme et remplacer complètement les CAPTCHA basés sur les défis au cours des cinq à dix prochaines années.

Cas d'utilisation des CAPTCHA

La technologie CAPTCHA est largement utilisée comme mesure de détection et de prévention des bots, notamment pour :

Empêcher les fausses inscriptions ou faux enregistrements ;
Protéger contre les transactions suspectes ;
Garantir l'intégrité des sondages en ligne ;
Bloquer les spams dans les commentaires et les avis produits ;
Défendre contre les attaques par force brute et dictionnaire

Empêcher les fausses inscriptions ou faux enregistrements

En soumettant les utilisateurs à un test CAPTCHA avant la création de comptes de messagerie, de réseaux sociaux ou d'autres services en ligne, les entreprises peuvent empêcher les bots de diffuser des spams, des logiciels malveillants ou de mener d'autres activités malveillantes. Parmi les premiers adeptes des CAPTCHA, on trouve des entreprises comme Yahoo, Microsoft et AOL, qui cherchaient à empêcher la création de faux comptes e-mail.

Protéger contre les transactions suspectes

Des entreprises comme Ticketmaster ont utilisé les CAPTCHA pour bloquer les bots tentant d'acheter des billets de concert et autres produits en quantité limitée, avant de les revendre sur des marchés secondaires.

Garantir l'intégrité des sondages en ligne

Les bots peuvent aussi compromettre l'intégrité des sondages en ligne sans une solution de dissuasion comme CAPTCHA. La nécessité de protéger l'intégrité des résultats des sondages en ligne a motivé certaines des premières expériences de technologie de type CAPTCHA. Par exemple, lors de l'élection présidentielle américaine de 1996, Digital Equipment Corporation a demandé aux utilisateurs de cliquer sur une image pixélisée d'un drapeau avant de voter, afin de garantir la qualité des résultats de ses sondages.

Bloquer les spams dans les commentaires et les avis produits

Les escrocs et les cybercriminels exploitent également les sections de commentaires des blogs et articles pour propager des escroqueries et des logiciels malveillants. Ils s'adonnent aussi au spam d'avis, en publiant de faux commentaires pour améliorer artificiellement le classement d'un produit sur les plateformes de e-commerce ou un moteur de recherche. De plus, les bots peuvent être utilisés pour mener des campagnes de harcèlement dans les sections de commentaires non protégées. Ces activités malveillantes peuvent être limitées en demandant aux utilisateurs de remplir un CAPTCHA avant de publier un commentaire ou un avis.

Défendre contre les attaques par force brute et dictionnaire

Dans le cadre des attaques par force brute ou par dictionnaire, les pirates informatiques utilisent des bots pour deviner des combinaisons de chiffres, de lettres et de caractères spéciaux jusqu’à ce qu’ils trouvent le bon mot de passe. Ces attaques peuvent être contrecarrées en demandant à l'utilisateur de compléter un CAPTCHA après plusieurs tentatives de connexion échouées.

Inconvénients des CAPTCHA

Bien que la technologie CAPTCHA soit généralement efficace pour arrêter les bots, elle présente également quelques inconvénients, tels que :

Une expérience utilisateur moins fluide ;
Des défis d'accessibilité ;
Une réduction des taux de conversion ;
La capacité des bots IA à contourner les nouveaux CAPTCHA
Les préoccupations en matière de protection de la vie privée

Une expérience utilisateur moins fluide

Les CAPTCHA ajoutent une étape supplémentaire aux processus d'inscription, de connexion ou de remplissage de formulaires, ce qui peut agacer certains utilisateurs. De plus, à mesure que les CAPTCHA deviennent plus complexes pour déjouer les bots sophistiqués, ils peuvent également devenir plus frustrants à résoudre. Une étude menée en 2010 par l'Université de Stanford a révélé que, lorsque des groupes de trois personnes tentaient de résoudre les mêmes CAPTCHA, seulement 71 % d'entre eux étaient d'accord sur la solution finale. L'étude a également montré que les personnes dont l'anglais n'était pas la langue maternelle avaient plus de difficulté à résoudre ces CAPTCHA, suggérant que certains groupes démographiques pourraient trouver ces défis plus ardus que d'autres.

Des défis d'accessibilité

De plus, les CAPTCHA basés sur du texte ou des images peuvent être extrêmement difficiles, voire impossibles à résoudre pour les utilisateurs malvoyants. Ce problème est accentué par le fait que les lecteurs d'écran ne peuvent pas interpréter la plupart des défis CAPTCHA, car ces tests sont conçus pour être illisibles par des machines.

Des alternatives aux CAPTCHA classiques ont été développées pour tenter de résoudre cette question, mais elles présentent également leurs propres limites. Les CAPTCHA audio, par exemple, qui demandent aux utilisateurs de déchiffrer un message audio brouillé, sont notoirement difficiles à comprendre. L'étude de Stanford mentionnée plus haut a montré que les utilisateurs s'accordent sur la solution d'un CAPTCHA audio seulement dans 31 % des cas.

Les MAPTCHA, une forme de CAPTCHA basée sur des problèmes mathématiques simples, sont particulièrement vulnérables aux algorithmes capables de les résoudre automatiquement.

L'utilisation de CAPTCHA inaccessibles peut aussi entraîner des complications juridiques. L'amendement de la Section 508 de la loi sur la réhabilitation de 1973, adopté en 1998, exige que les agences fédérales américaines et leurs partenaires du secteur privé rendent les informations numériques accessibles aux personnes handicapées. Les entreprises qui ne proposent pas de solutions CAPTCHA accessibles risquent de violer cette exigence.

Une réduction des taux de conversion

En outre, les CAPTCHA peuvent affecter négativement l'expérience utilisateur et les taux de conversion. Une étude de cas réalisée en 2009 sur 50 sites web a révélé que le simple fait de demander aux utilisateurs de remplir un CAPTCHA a réduit les conversions légitimes de 3,2 %. Les CAPTCHA audio sont particulièrement problématiques : selon l'étude de Stanford, les utilisateurs abandonnent dans 50 % des cas lorsqu'ils sont confrontés à un défi audio.

La capacité des bots IA à contourner les nouveaux CAPTCHA

Les systèmes CAPTCHA ont évolué à de nombreuses reprises depuis leur création, car les bots se sont constamment adaptés pour contourner chaque nouvelle version. La structure même des CAPTCHA contribue à ce problème, car ils reposent sur des défis d'intelligence artificielle encore non résolus pour bloquer les bots. Cependant, chaque fois que des humains résolvent ces défis, ils génèrent des ensembles de données qui peuvent être utilisés pour entraîner des algorithmes de machine learning à surpasser ces problèmes. Par exemple, en 2016, le chercheur en informatique Jason Polakis a utilisé la recherche d'images inversée de Google pour résoudre les CAPTCHA d'images avec un taux de succès de 70 %.

Les préoccupations en matière de protection de la vie privée

Bien que les nouvelles formes de CAPTCHA tentent de résoudre les problèmes d'accessibilité et de freiner l'évolution des bots en éliminant les défis interactifs, certaines personnes et chercheurs trouvent les CAPTCHA pilotés par l'IA intrusifs. Certains s'inquiètent de la manière dont reCAPTCHA v3 utilise des cookies et des codes pour suivre les utilisateurs sur plusieurs sites web. Il existe également des préoccupations concernant le manque de transparence sur l'utilisation de ces données de suivi pour des fins autres que la simple vérification.

Guide du praticien IAM

Découvrez comment le nouveau guide IAM d’IBM aide les équipes à simplifier la prolifération des identités, à automatiser le travail manuel et à sécuriser les identités humaines et les identités non-humaines à l’échelle.

Qu'est-ce que CAPTCHA ?