O que é CAPTCHA?

CAPTCHA significa "teste de Turing público completamente automatizado* para diferenciar computadores e humanos". Refere-se a vários métodos de autenticação que validam os usuários como humanos, não bots, apresentando um desafio simples para humanos, mas difícil para máquinas.

Os CAPTCHAs evitam que golpistas e spammers usem bots para preencher formulários da web para fins maliciosos.

Os CAPTCHAs tradicionais exigiam que os usuários lessem e redigitassem corretamente o texto distorcido que não podia ser interpretado pela tecnologia de reconhecimento óptico de caracteres (OCR). As iterações mais recentes da tecnologia CAPTCHA usam análises comportamentais e de risco orientadas por IA para autenticar usuários humanos com base em padrões de atividade em vez de uma única tarefa.

Muitos sites exigem que os usuários concluam um desafio CAPTCHA antes de fazer login em um perfil de conta, enviar um formulário de registro, postar um comentário ou realizar alguma outra ação para cuja execução os hackers possam usar um bot. Ao resolver o desafio, os usuários confirmam que são humanos e podem continuar suas atividades no site.

* Um teste de Turing, nomeado em homenagem ao seu criador Alan Turing, testa a capacidade de uma máquina de exibir inteligência humana.

Sua equipe apanharia o próximo dia zero a tempo?

Junte-se aos líderes de segurança que confiam no boletim informativo Think para receber notícias selecionadas sobre IA, cibersegurança, dados e automação. Aprenda rápido com tutoriais e explicações de especialistas, entregues diretamente em sua caixa de entrada. Consulte a Declaração de privacidade da IBM.

A evolução do CAPTCHA

Vários grupos diferentes desenvolveram as primeiras formas de tecnologia CAPTCHA em paralelo durante o final da década de 1990 e início da década de 2000. Cada grupo trabalhou para combater o problema generalizado dos hackers que usam bots para atividades nefastas na Internet. Por exemplo, os cientistas da computação que trabalhavam para o mecanismo de busca AltaVista queriam impedir que os bots adicionassem endereços da web mal-intencionados ao banco de dados de links da empresa.

Pesquisadores da empresa de TI Sanctum apresentaram o primeiro sistema de estilo CAPTCHA em 1997. No entanto, um grupo de pesquisadores de ciência da computação da Carnegie Mellon University, liderado por Luis von Ahn e Manuel Blum, introduziu o termo CAPTCHA pela primeira vez em 2003. Essa equipe foi inspirada a trabalhar na tecnologia por um executivo do Yahoo, que fez uma palestra sobre os problemas da empresa com spambots que se inscreviam para milhões de contas de e-mail falsas.

Para resolver o problema do Yahoo, von Ahn e Blum criaram um programa de computador que:

gerava uma sequência aleatória de texto,
gerava uma imagem distorcida desse texto (chamada de "código CAPTCHA"),
apresentava a imagem ao usuário,
pedia ao usuário para inserir o texto em um campo de formulário e, em seguida, enviar a entrada clicando em uma caixa de seleção ao lado da frase "Não sou um robô".

Como a tecnologia OCR da época lutava para decifrar esse texto distorcido, os bots não conseguiam ser aprovados no desafio CAPTCHA. Se um usuário inseriu a sequência correta de caracteres, pode-se presumir de forma confiável que ele era humano e tinha permissão para concluir o registro da conta ou o envio do formulário da web.

O Yahoo implementou a tecnologia da Carnegie Mellon, exigindo que todos os usuários passassem por um teste CAPTCHA antes de se inscreverem para um endereço de e-mail. Isso reduziu significativamente a atividade de spambots, e outras empresas passaram a adotar CAPTCHAs para proteger seus formulários da web. Com o tempo, no entanto, hackers usaram dados de desafios CAPTCHA concluídos para desenvolver algoritmos capazes de fazê-los ser aprovados de forma confiável nos testes CAPTCHA. Isso marcou o início de uma corrida armamentista contínua entre desenvolvedores de CAPTCHA e cibercriminosos, que impulsionou a evolução da funcionalidade CAPTCHA.

reCAPTCHA v1

Lançado por von Ahn em 2007, o reCAPTCHA v1 tinha um duplo objetivo: tornar o desafio do CAPTCHA baseado em texto mais difícil para os bots decifrarem e melhorar a precisão do OCR usado na época para digitalizar textos impressos.

O reCAPTCHA atingiu o primeiro objetivo aumentando a distorção do texto exibido para o usuário e, eventualmente, adicionando linhas ao longo do texto.

Ele alcançou o segundo objetivo substituindo uma única imagem de texto distorcido gerado aleatoriamente por duas imagens de texto distorcidas de palavras digitalizadas de textos reais por dois programas de OCR diferentes. A primeira palavra, ou palavra de controle, era uma palavra identificada corretamente por ambos os programas de OCR. A segunda palavra era uma palavra que ambos os programas de OCR não conseguiram identificar. Se o usuário identificou corretamente a palavra de controle, o reCAPTCHA presumia que o usuário era humano e permitia que ele continuasse sua tarefa, e também presumia que o usuário identificou a segunda palavra corretamente e usou a resposta para verificar futuros resultados de OCR.

Dessa forma, o reCAPTCHA melhorou a segurança antibot e melhorou a precisão dos textos que estavam sendo digitalizados no Internet Archive e no New York Times. Ironicamente, ao longo do tempo, também ajudou a melhorar os algoritmos de inteligência artificial eaprendizado de máquina, a tal ponto que, até 2014, eles podiam identificar os CAPTCHAs de texto mais distorcidos em 99,8% das vezes.

Em 2009, o Google adquiriu o reCAPTCHA e começou a usá-lo para digitalizar textos para o Google Livros, oferecendo-o como um serviço a outras organizações. No entanto, à medida que a tecnologia OCR progredia com a ajuda do reCAPTCHA, também progrediam os programas de inteligência artificial que poderiam efetivamente resolver reCAPTCHAs baseados em texto. Em resposta, o Google introduziu reCAPTCHAs de reconhecimento de imagem em 2012, que substituíam texto distorcido por imagens tiradas do Google Street View. Os usuários provavam sua humanidade identificando objetos do mundo real, como luzes de rua e táxis. Além de evitar o OCR avançado agora implementado por bots, esses reCAPTCHAs baseados em imagem eram considerados mais convenientes para usuários de aplicativos móveis.

Google reCAPTCHA v2: reCAPTCHA sem CAPTCHA

Em 2014, o Google lançou o reCAPTCHA v2, que substituía desafios baseados em texto e imagem por uma caixa de seleção simples informando "Não sou um robô". À medida que os usuários marcavam a caixa, o reCAPTCHA v2 analisava as interações do usuário com as páginas da web, avaliando fatores como velocidade de digitação, cookies, histórico do dispositivo e endereço IP para determinar se era provável que o usuário fosse humano. A caixa de seleção também faziz parte de como o CAPTCHA funcionava: o reCAPTCHA sem CAPTCHA rastreava os movimentos do mouse do usuário à medida que ele clica na caixa. Os movimentos de um humano tendem a ser mais caóticos, enquanto os movimentos de bots são mais precisos. Se o reCAPTCHA sem CAPTCHA suspeitasse de que um usuário poderia ser um bot, ele apresentaria um desafio CAPTCHA baseado em imagem.

reCAPTCHA v3

O reCAPTCHA v3, lançado em 2018, eliminava a caixa de seleção e expandia a análise de risco orientada por IA do reCAPTCHA sem CAPTCHA. O ReCAPTCHA v3 integrava-se a uma página da web por meio da API JavaScript e era executado em segundo plano, pontuando o comportamento do usuário em uma escala de 0,0 (provavelmente um bot) a 1,0 (provavelmente um humano). Os proprietários de sites podiam definir ações automatizadas para serem acionadas em determinados momentos quando a pontuação de um usuário sugerisse que poderia ser um bot. Por exemplo, comentários de blogs de usuários com pontuação baixa podiam ser enviados para uma fila de moderação quando clicavam em "enviar", ou usuários com pontuação baixa podiam ser solicitados a concluir um processo de autenticação de vários fatores quando tentavam fazer login em uma conta.

Métodos de autenticação baseados em IA, como o reCAPTCHA v3, procuram contornar o problema dos hackers. Ao remover desafios interativos do processo de verificação CAPTCHA, eles impedem que hackers usem dados de desafios resolvidos anteriormente para treinar bots para quebrar novos CAPTCHAs. Por causa disso, os especialistas acreditam que os CAPTCHAs baseados em IA podem se tornar a norma, substituindo completamente os CAPTCHAs baseados em desafios nos próximos cinco a dez anos.

Casos de uso do CAPTCHA

A tecnologia CAPTCHA tem vários usos comuns como medida de detecção e prevenção de bots, incluindo:

Prevenção de registros falsos
Proteção contra transações suspeitas
Proteção da integridade de pesquisas online
Bloqueio de spam de comentários e avaliações de produtos
Defesa contra ataques de força bruta e de dicionário

Prevenção de registros falsos

Ao apresentar aos usuários um teste CAPTCHA antes de se inscrever em uma conta de e-mail, perfil de rede social ou outros serviços online, as empresas podem bloquear bots que usam esses serviços para espalhar spam ou malware ou realizar atividades maliciosas. Os primeiros a adotar o CAPTCHA foram empresas como Yahoo, Microsoft e AOL, que queriam impedir que os bots se registrassem para contas de e-mail falsas.

Proteção contra transações suspeitas

Empresas como a Ticketmaster usaram o CAPTCHA para impedir que bots comprassem mercadorias limitadas, como por exemplo, ingressos para shows, e as revendessem em mercados secundários.

Proteção da integridade de pesquisas online

Os bots podem comprometer pesquisas online sem um impedimento como o CAPTCHA. A necessidade de proteger a integridade dos resultados de pesquisas online motivou alguns dos primeiros experimentos com tecnologia semelhante ao CAPTCHA. Por exemplo, para garantir a qualidade de suas pesquisas de opinião online durante a eleição presidencial dos EUA de 1996, a Digital Equipment Corporation pediu aos usuários que localizassem e clicassem em uma imagem pixelizada de uma bandeira na página da web antes de votar.

Bloqueio de spam de comentários e avaliações de produtos

Golpistas e cibercriminosos costumam usar seções de comentários de blogs e artigos para espalhar golpes e malware. Eles também podem se envolver em spam de avaliações, no qual publicam um grande número de avaliações falsas para impulsionar artificialmente a classificação de um produto em um site de comércio eletrônico ou mecanismo de pesquisa. Os bots também podem usar seções de comentários desprotegidas para realizar campanhas de assédio. Essas atividades maliciosas podem ser mitigadas solicitando aos usuários que preencham um CAPTCHA antes de postar um comentário ou avaliação.

Defesa contra ataques de força bruta e de dicionário

Em ataques de força bruta e de dicionário, hackers invadem uma conta usando bots para adivinhar combinações de números, letras e caracteres especiais até encontrarem a senha correta. Esses ataques podem ser interrompidos exigindo que os usuários concluam um CAPTCHA após um certo número de tentativas malsucedidas de login.

Desvantagens do CAPTCHA

Embora a tecnologia CAPTCHA tenha se mostrado, em geral, eficaz na interrupção de bots, ela tem suas desvantagens, incluindo:

Experiências inconvenientes para o usuário
Desafios de acessibilidade
Taxas de conversão reduzidas
Capacidade da IA do bot de derrotar novos CAPTCHAs
Preocupações de privacidade

Experiências inconvenientes para o usuário

Os desafios de CAPTCHA adicionam uma etapa extra aos processos de registro, login e preenchimento de formulários, o que algumas pessoas consideram irritante. Além disso, como a complexidade do CAPTCHA aumentou para derrotar bots mais sofisticados, resolver CAPTCHAs também se tornou frustrante para os usuários. Em um estudo de 2010, quando pesquisadores da Stanford University pediram a grupos de três pessoas que resolvessem os mesmos CAPTCHAs, osparticipantes concordaram unanimamente com a solução do CAPTCHA apenas 71% das vezes. O estudo também descobriu que falantes não nativos de inglês têm mais dificuldade para resolver CAPTCHAs do que falantes nativos, o que sugere que os CAPTCHAs podem ser mais desafiadores para alguns grupos demográficos do que para outros.

Desafios de acessibilidade

CAPTCHAs de texto e imagem podem ser extremamente desafiadores ou impossíveis de resolver para usuários com deficiência visual. Isso é agravado pelo fato de que os leitores de tela não podem ler a maioria dos desafios CAPTCHA porque esses testes são projetados para serem ilegíveis por máquinas.

Formas alternativas de CAPTCHAs tentaram resolver esse problema, mas têm suas próprias limitações. CAPTCHAs de áudio, que exigem que os usuários decifrem áudio ilegível, são notoriamente difíceis de resolver. O estudo de Stanford mencionado anteriormente descobriu que os usuários concordaram unanimamente com as soluções CAPTCHA de áudio em apenas 31% das vezes.

O MAPTCHA, um tipo de CAPTCHA que exige que os usuários resolvam problemas matemáticos simples, é altamente vulnerável a ser decifrado por algoritmos.

O uso de CAPTCHAs inacessíveis também pode ter repercussões legais. A Emenda da Seção 508 da Lei de Reabilitação de 1973, introduzida em 1998, exige que as agências federais dos EUA e seus parceiros do setor privado disponibilizem informações digitais para pessoas com deficiências. As empresas podem estar violando esse requisito se não tiverem opções de CAPTCHA acessíveis.

Taxas de conversão reduzidas

A experiência inconveniente do usuário e a inacessibilidade dos CAPTCHAs podem influenciar negativamente as taxas de conversão. Em um estudo de caso de 2009 com 50 sites, pedir aos usuários que completem um CAPTCHA reduziu as conversões legítimas em 3,2%. Os CAPTCHAs de áudio podem ser especialmente prejudiciais: o estudo de Stanford mencionado anteriormente descobriu que os usuários desistem de resolver CAPTCHAs baseados em som 50% das vezes.

Capacidade da IA do bot de derrotar novos CAPTCHAs

Os esquemas de CAPTCHA mudaram muitas vezes desde o início da tecnologia porque os bots evoluíram consistentemente para derrotar cada novo desafio de CAPTCHA. A própria estrutura da tecnologia CAPTCHA contribui para esse problema, porque os CAPTCHAs dependem de problemas de IA não resolvidos para impedir os bots. Quando os humanos resolvem os desafios do CAPTCHA, eles geram conjuntos de dados que podem treinar algoritmos de aprendizado de máquina para superar esses problemas de IA anteriormente impossíveis. Por exemplo, em 2016, o pesquisador de ciência da computação Jason Polakis usou a pesquisa reversa de imagens do Google para resolver os CAPTCHAS baseados em imagens do Google, com uma taxa de acerto de 70%.

Preocupações de privacidade

Embora novas formas de CAPTCHA tentem resolver problemas de acessibilidade e interromper a corrida armamentista de bots removendo completamente os desafios interativos, alguns usuários e pesquisadores acham que os CAPTCHAs orientados por IA são invasivos. As pessoas levantaram preocupações sobre como o reCAPTCHA v3 usa códigos e cookies para rastrear usuários em vários sites. Algumas acham que não há transparência suficiente sobre como esses dados de rastreamento podem ser usados para fins além da verificação.

Guia do profissional de IAM

Saiba como o novo guia de IAM da IBM ajuda as equipes a simplificar a dispersão de identidades, automatizar o trabalho manual e proteger identidades humanas e não humanas em escala.

O que é CAPTCHA?

O que é CAPTCHA?

Sua equipe apanharia o próximo dia zero a tempo?

A evolução do CAPTCHA

reCAPTCHA v1

Google reCAPTCHA v2: reCAPTCHA sem CAPTCHA

reCAPTCHA v3

Casos de uso do CAPTCHA

Prevenção de registros falsos

Proteção contra transações suspeitas

Proteção da integridade de pesquisas online

Bloqueio de spam de comentários e avaliações de produtos

Defesa contra ataques de força bruta e de dicionário

Desvantagens do CAPTCHA

Experiências inconvenientes para o usuário

Desafios de acessibilidade

Taxas de conversão reduzidas

Capacidade da IA do bot de derrotar novos CAPTCHAs

Preocupações de privacidade

Recursos