Black box AI, ou inteligência artificial black box, é um sistema de IA cujo funcionamento interno é um mistério para seus usuários. Os usuários podem ver as entradas e saídas do sistema, mas não podem ver o que acontece dentro da ferramenta de IA para produzir essas saídas.
Considere um modelo de caixa-preta que avalia os currículos dos candidatos a vagas de emprego. Os usuários podem ver as entradas — os currículos que alimentam o modelo de IA. E os usuários podem ver as saídas — as avaliações que o modelo retorna para esses currículos. Mas os usuários não sabem exatamente como o modelo chega a suas conclusões — os fatores que considera, como avalia esses fatores e assim por diante.
Muitos dos modelos de aprendizado de máquina mais avançados disponíveis atualmente, incluindo grandes modelos de linguagem como o ChatGPT da OpenAI e o Llama da Meta, são IAs de caixa-preta. Esses modelos de inteligência artificial são treinados em conjuntos de dados maciços por meio de processos complexos de deep learning, e até mesmo seus próprios criadores não entendem completamente como eles funcionam.
Essas caixas-pretas complexas podem fornecer resultados impressionantes, mas a falta de transparência às vezes pode dificultar a confiança em suas saídas. Os usuários não podem validar facilmente as saídas de um modelo se não conhecerem os detalhes técnicos. Além disso, a opacidade de um modelo de black box pode ocultar vulnerabilidades de cibersegurança, vieses, violações de privacidade e outros problemas.
Para enfrentar esses desafios, os pesquisadores de IA estão trabalhando para desenvolver ferramentas de IA explicáveis que equilibrem o desempenho de modelos avançados com a necessidade de transparência nos resultados da IA.
Boletim informativo do setor
Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.
Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.
Os modelos de black box AI surgem por uma de duas razões: ou seus desenvolvedores os transformam em caixas-pretas de propósito ou eles se tornam caixas-pretas como um subproduto de seu treinamento.
Alguns desenvolvedores e programadores de IA ocultam o funcionamento interno das ferramentas de IA antes de liberá-las para o público. Essa tática geralmente visa proteger a propriedade intelectual. Os criadores do sistema sabem exatamente como ele funciona, mas mantêm o código-fonte e o processo de tomada de decisão em segredo. Muitos algoritmos de IA tradicionais, baseados em regras, são caixas-pretas por esse motivo.
No entanto, muitas das tecnologias de IA mais avançadas, incluindo ferramentas de IA generativa, são o que se poderia chamar de “caixas-pretas orgânicas”. Os criadores dessas ferramentas não ocultam intencionalmente suas operações. Em vez disso, os sistemas de deep learning que alimentam esses modelos são tão complexos que até mesmo os próprios criadores não entendem exatamente o que acontece dentro deles.
Os algoritmos de deep learning são um tipo de algoritmo de aprendizado de máquina que usa redes neurais. Enquanto um modelo tradicional de aprendizado de máquina pode usar uma rede com uma ou duas camadas, os modelos de deep learning podem ter centenas ou até milhares de camadas. Cada camada contém múltiplos neurônios, que são pacotes de código projetados para imitar as funções do cérebro humano.
As redes neurais podem consumir e analisar conjuntos de big data brutos e não estruturados com pouca intervenção humana. Elas podem receber grandes quantidades de dados, identificar padrões, aprender com esses padrões e usar o que aprenderam para gerar novas saídas, como imagens, vídeo e texto.
Essa capacidade de aprendizado em grande escala sem supervisão permite que os sistemas de IA realizem tarefas como processamento avançado de linguagem, criação de conteúdo original e outras proezas que podem parecer próximas à inteligência humana.
No entanto, essas redes neurais profundas são inerentemente opacas. Os usuários, incluindo os desenvolvedores de IA, podem ver o que acontece nas camadas de entrada e saída, também chamadas de “camadas visíveis”. Eles podem ver os dados que entram e as previsões, classificações ou outros conteúdos que saem. Porém, eles não sabem o que acontece em todas as camadas de rede intermediárias, as chamadas “camadas ocultas”.
Os desenvolvedores de IA sabem como os dados migram em cada camada da rede e têm uma noção geral do que os modelos fazem com os dados que ingrem. Mas eles não conhecem todos os detalhes. Por exemplo, eles podem não saber o que significa quando uma determinada combinação de neurônios é ativada, ou exatamente como o modelo encontra e combina embeddings de vetores para responder a um prompt.
Mesmo os modelos de IA de código aberto que compartilham seu código subjacente acabam sendo caixas-pretas, porque os usuários ainda não conseguem interpretar o que acontece em cada camada do modelo quando ele está ativo.
Os modelos de IA e ML mais avançados disponíveis hoje são extremamente poderosos, mas esse poder vem com o preço de uma menor interpretabilidade.
Os modelos de IA generativa dependem de redes neurais para responder a comandos de linguagem natural, resolver novos problemas e criar conteúdo original, mas é difícil interpretar o que acontece dentro dessas redes. Os modelos de IA mais simples e baseados em regras são mais fáceis de explicar, mas geralmente não são tão poderosos ou flexíveis quanto os modelos de IA generativa.
Portanto, as organizações não podem resolver o problema da caixa-preta simplesmente usando ferramentas de IA tradicionais e mais explicáveis. Modelos de IA tradicionais podem realizar muitas funções, mas há algumas coisas que apenas um modelo de IA avançado pode fazer.
Embora possa haver razões práticas para usar modelos de aprendizado de máquina de caixa-preta, a falta de transparência pode ser um obstáculo para obter o valor total desses modelos avançados.
Especificamente, a IA de caixa-preta apresenta desafios como:
Os usuários não sabem como um modelo de caixa-preta toma as decisões que toma — os fatores que avalia e as correlações que faz. Mesmo que as saídas do modelo pareçam precisas, a validação pode ser difícil sem uma compreensão clara dos processos que levam a essas saídas.
Sem o conhecimento de seus usuários, os modelos de caixa-preta podem chegar às conclusões certas pelo motivo errado. Esse fenômeno às vezes é chamado de "efeito Clever Hans", em referência a um cavalo que supostamente poderia contar e fazer aritmética simples batendo seu casco no chão. Na verdade, Hans estava captando dicas sutis da linguagem corporal de seu dono para saber quando era hora de parar de bater com o casco.
O efeito Clever Hans pode ter sérias consequências quando os modelos são aplicados a campos como o da saúde. Por exemplo, sabe-se que os modelos de IA treinados para diagnosticar a COVID-19 com base em radiografias de pulmão alcançaram altos níveis de precisão com dados de treinamento, mas tiveram um desempenho menos eficaz no mundo real.
Essa lacuna de desempenho muitas vezes surge porque os modelos estão aprendendo a identificar a COVID com base em fatores irrelevantes. Um modelo experimental "diagnosticou" a COVID com base na presença de anotações em raios-X, em vez dos próprios raios-X. Isso aconteceu porque os raios X positivos para a COVID eram mais propensos a serem anotados nos dados de treinamento do modelo, porque os médicos estavam destacando suas funcionalidades relevantes para outros médicos.1
Se um modelo de caixa-preta tomar as decisões erradas ou produzir consistentemente saídas imprecisas ou prejudiciais, pode ser difícil ajustar o modelo para corrigir esse comportamento. Sem saber exatamente o que acontece dentro do modelo, os usuários não podem identificar com precisão onde ele está errando.
Esse problema representa um desafio significativo no campo de veículos autônomos, onde os desenvolvedores treinam sistemas sofisticados de IA para tomar decisões de direção em tempo real. Se um veículo autônomo tomar a decisão errada, as consequências podem ser fatais. Porém, como os modelos por trás desses veículos são extremamente complexos, pode ser difícil entender por que tomam decisões ruins e como corrigi-las.
Para contornar esse problema, muitos desenvolvedores de veículos autônomos complementam suas IAs com sistemas mais explicáveis, como radar e sensores lidar. Embora esses sistemas não esclareçam a IA em si, eles fornecem aos desenvolvedores insights sobre os ambientes e situações que parecem fazer com que os modelos de IA tomem decisões ruins.2
Como as organizações não conseguem ver tudo o que acontece em um modelo de caixa-preta, elas podem deixar passar vulnerabilidades à espreita. Os modelos de IA generativa também são suscetíveis a ataques de injeção de prompts e envenenamento de dados, que podem alterar secretamente o comportamento de um modelo sem que os usuários saibam. Se os usuários não conseguirem ver os processos de um modelo, eles não saberão quando esses processos foram alterados.
Os modelos de caixa-preta podem ser suscetíveis a vieses. Qualquer ferramenta de IA pode reproduzir vieses humanos se esses vieses estiverem presentes em seus dados de treinamento ou em seu projeto. Com modelos de caixa-preta, pode ser especialmente difícil identificar a existência de vieses ou suas causas.
O viés pode levar a resultados abaixo do ideal, completamente prejudiciais e ilegais. Por exemplo, um modelo de IA treinado para selecionar candidatos a empregos pode aprender a eliminar candidatas talentosas se os dados de treinamento forem tendenciosamente masculinos.
Alguns sistemas de justiça criminal usam modelos de IA sofisticados para avaliar o risco de reincidência de uma pessoa. Esses modelos muitas vezes são caixas-pretas, pelo menos para o público, que pode não saber exatamente quais fatores os modelos consideram. Se o algoritmo não for transparente, pode ser difícil confiar nas previsões ou recorrer delas quando estiverem erradas.3
Certas regulamentações, como a Lei de IA da União Europeia e a California Consumer Privacy Act (CCPA), estabelecem regras sobre como as organizações podem usar dados pessoais em ferramentas de tomada de decisão impulsionadas por IA. Com os modelos de caixa-preta, pode ser difícil para uma organização saber se está em conformidade ou provar a conformidade no caso de uma auditoria.
A IA de caixa-branca, também chamada de IA explicável (XAI) ou IA de caixa de vidro, é o oposto da IA de caixa-preta. É um sistema de IA com funcionamento interno transparente. Os usuários entendem como a IA coleta dados, os processa e chega a uma conclusão.
Os modelos de IA facilitam confiar e validar os resultados, além de adaptar os modelos para corrigir erros e ajustar o desempenho. Mas não é fácil transformar cada IA em uma caixa-branca.
Os modelos de IA tradicionais podem muitas vezes se tornar transparentes ao compartilhar seu código-fonte. Porém, modelos sofisticados de aprendizado de máquina desenvolvem seus próprios parâmetros por meio de algoritmos de deep learning. Simplesmente ter acesso às arquiteturas desses modelos nem sempre explica completamente o que eles estão fazendo.
Dito isso, há esforços em andamento para tornar os modelos de IA mais explicáveis. Por exemplo, os pesquisadores da Anthropic estão aplicando autocodificadores (um tipo de rede neural) ao LLM Claude 3 Sonnet da empresa para entender quais combinações de neurônios correspondem a quais conceitos. Até agora, os pesquisadores identificaram combinações que significam coisas como a Ponte Golden Gate e o campo da neurociência.4
O recente modelo o1 da OpenAI compartilha informações sobre as etapas necessárias para alcançar suas saídas, o que pode ajudar a ilustrar como ele chega às respostas. No entanto, essa não é uma visão direta dentro do modelo, mas uma explicação gerada pelo modelo de sua própria atividade. Grande parte das operações do modelo (incluindo a cadeia bruta de pensamento) permanece oculta.5
Outros pesquisadores desenvolveram técnicas para ajudar a explicar como os modelos chegam a conclusões específicas. Por exemplo, explicação local interpretável independente de modelo (LIME) é um processo que usa um modelo de aprendizado de máquina separado para analisar as relações entre as entradas e as saídas de uma caixa-preta, com o objetivo de identificar funcionalidades que possam influenciar as saídas do modelo.
Essas técnicas focadas em conclusões geralmente são projetadas para funcionar em modelos com entradas e saídas claramente estruturadas. Por exemplo, o LIME pode ajudar a explicar previsões e classificações, mas lança menos luz sobre sistemas de IA com redes neurais profundas.
As organizações podem optar por modelos transparentes sempre que possível, mas alguns fluxos de trabalho exigem ferramentas sofisticadas de IA de caixa-preta. Dito isso, existem maneiras de tornar os modelos de caixa-preta mais confiáveis e mitigar alguns de seus riscos.
Os modelos de código aberto podem dar aos usuários mais transparência em seu desenvolvimento e operações do que as ferramentas de IA de código fechado, que mantêm as arquiteturas de seus modelos privadas.
Um modelo de IA generativa de código aberto pode, no fim das contas, ser uma caixa-preta devido à sua rede neural complexa, mas pode dar aos usuários mais insights do que um modelo de código fechado.
A governança de IA (os processos, normas e proteções que ajudam a garantir que os sistemas e as ferramentas de IA sejam seguros e éticos) permite que as organizações estabeleçam estruturas de controle robustas para implementações de IA.
As ferramentas de governança podem oferecer mais insights sobre as operações do modelo por meio da automação do monitoramento, dos alertas de desempenho, das pontuações de integridade e das trilhas de auditoria. A governança de IA pode não tornar uma caixa-preta transparente, mas pode ajudar a detectar anomalias e impedir o uso inadequado.
Os processos e ferramentas de segurança de IA podem ajudar a identificar e corrigir vulnerabilidades em modelos de IA, aplicações e conjuntos de dados relacionados que as equipes de TI e de segurança podem não encontrar sozinhas.
As ferramentas de segurança de IA também podem oferecer insights sobre os dados, modelos e uso de aplicações de cada implementação de IA, bem como as aplicações que acessam a IA.
Um framework de IA responsável fornece à organização um conjunto de princípios e práticas para tornar a IA mais confiável.
Por exemplo, os Pilares de Confiança da IBM para IA incluem explicabilidade, imparcialidade, robustez, transparência e privacidade. Onde os modelos de caixa-preta são necessários, a adesão a um framework pode ajudar a organização a usar esses modelos de maneira mais transparente.
Cadastre-se
Saiba mais
Fazer download
Saiba mais
1 AI for radiographic COVID-19 detection selects shortcuts over signal, Nature, 31 de maio de 2021.
2 Tesla's robotaxi push hinges on 'black box' AI gamble, Reuters, 10 de outubro de 2024.
3 Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, Anthropic, 21 de maio de 2024.
4Learning to Reason with LLMs, OpenAI, 12 de setembro de 2024.