As tendências da IA mais importantes em 2024
9 de fevereiro de 2024
12 minutos de leitura

2022 foi o ano em que a inteligência artificial (IA) generativa explodiu na consciência pública, e 2023 foi o ano em que começou a se enraizar no mundo dos negócios. Assim, 2024 será um ano crucial para o futuro da IA, pois pesquisadores e empresas buscam estabelecer como esse salto evolutivo na tecnologia pode ser integrado de forma mais prática em nossa vida cotidiana.

A evolução da IA generativa espelhou a dos computadores, embora em uma linha do tempo drasticamente acelerada. Computadores mainframe maciços e operados centralmente de alguns players deram lugar a máquinas menores e mais eficientes, acessíveis a empresas e instituições de pesquisa. Nas décadas que se seguiram, avanços incrementais produziram computadores domésticos nos quais os amadores podiam mexer. Com o tempo, computadores pessoais poderosos com interfaces intuitivas no-code tornaram-se onipresentes.

A IA generativa já atingiu sua fase "hobbyista" e, assim como aconteceu com os computadores, o progresso adicional visa alcançar maior desempenho em pacotes menores. 2023 viu uma explosão de modelos de base cada vez mais eficientes com licenças abertas, começando com o lançamento da família LlaMa de grandes modelos de linguagem (LLMs) da Meta e seguida por empresas como StableLM, Falcon, Mistral e Llama 2. DeepFloyd e Stable Diffusion alcançaram paridade relativa com os principais modelos proprietários. Aprimorados com técnicas de ajuste fino e conjuntos de dados desenvolvidos pela comunidade de código aberto, muitos modelos abertos agora podem superar todos, exceto os modelos de código fechado mais poderosos na maioria dos benchmarks, apesar de contagens de parâmetros muito menores.

À medida que o ritmo do progresso acelera, as capacidades cada vez maiores dos modelos de última geração atrairão mais atenção da mídia. Mas os desenvolvimentos mais impactantes podem ser aqueles focados em governança, middleware, técnicas de treinamento e pipelines de dados, que tornam a IA generativa mais confiável, sustentável e acessível, tanto para empresas quanto para usuários finais.

Aqui estão algumas tendências atuais importantes de IA a serem observadas no próximo ano.

  • Verificação da realidade: expectativas mais realistas
  • IA multimodal
  • Modelos de linguagem menores e avanços de código aberto
  • Escassez de GPU e custos de nuvem
  • A otimização de modelos está ficando mais acessível
  • Modelos locais e pipelines de dados personalizados
  • Agentes virtuais mais poderosos
  • Regulamentação, direitos autorais e questões éticas da IA
  • Shadow AI (e políticas corporativas de IA)
Verificação da realidade: expectativas mais realistas

Quando a IA generativa atingiu o reconhecimento em massa pela primeira vez, o conhecimento de um líder empresarial típico vinha principalmente de materiais de marketing e cobertura jornalística empolgante. A experiência tangível (se houvesse) estava limitada a mexer com ChatGPT e DALL-E. Agora que a poeira baixou, a comunidade empresarial tem uma compreensão mais refinada das soluções impulsionadas por IA.

O Gartner Hype Cycle posiciona a IA generativa diretamente no “Pico das Expectativas Infladas”, à beira de um deslizamento para a “Vala da Desilusão”[1]— em outras palavras, prestes a entrar em um período de transição (relativamente) abaixo do esperado — enquanto o relatório "State of Generated AI in the Enterprise" do primeiro trimestre de 2024 da Deloitte indicou que muitos líderes "esperam impactos transformadores substanciais no curto prazo".[2] A realidade provavelmente ficará no meio disso tudo: a IA generativa oferece oportunidades e soluções únicas, mas não será tudo para todos.

A comparação dos resultados do mundo real com a empolgação é parcialmente uma questão de perspectiva. Ferramentas independentes, como o ChatGPT, normalmente ocupam o centro do imaginário popular, mas a integração suave em serviços estabelecidos geralmente produz mais poder de permanência. Antes do atual ciclo de empolgação, ferramentas de aprendizado de máquina generativo, como a funcionalidade "Smart Compose", lançada pelo Google em 2018, não foram anunciadas como uma mudança de paradigma, apesar de serem precursoras dos serviços de geração de texto de hoje. Da mesma forma, muitas ferramentas de IA generativa de alto impacto estão sendo implementadas como elementos integrados de ambientes empresariais que aprimoram e complementam, em vez de revolucionar ou substituir, ferramentas existentes: por exemplo, funcionalidades de "Copiloto" no Microsoft Office, recursos de "Preenchimento generativo" no Adobe Photoshop ou agentes virtuais em aplicativos de produtividade e colaboração.

O local onde a IA generativa ganha impulso nos fluxos de trabalho diários terá mais influência no futuro das ferramentas de IA do que a vantagem hipotética de quaisquer recursos específicos da IA. De acordo com uma pesquisa recente da IBM com mais de 1.000 funcionários em empresas de grande porte, os três principais fatores que impulsionaram a adoção da IA foram os avanços nas ferramentas de IA que as tornam mais acessíveis, a necessidade de reduzir custos e automatizar os principais processos e a quantidade crescente de IA incorporada em aplicativos de negócios padrão prontos para uso.

IA multimodal (e vídeo)

Dito isso, a ambição de uma IA generativa de última geração está crescendo. A próxima onda de avanços se concentrará não apenas no aprimoramento do desempenho em um domínio específico, mas também em modelos multimodais que podem receber vários tipos de dados como entrada. Embora os modelos que operam em diferentes modalidades de dados não sejam um fenômeno estritamente novo (modelos de texto para imagem como o CLIP e modelos de fala para texto como o Wave2Vec já existem há anos), eles normalmente só operam em uma direção, e foram treinados para realizar uma tarefa específica.

A nova geração de modelos interdisciplinares, que inclui modelos proprietários como o GPT-4V da OpenAI ou o Gemini do Google, bem como modelos de código aberto como LLaVa, Adept ou Qwen-VL, pode se mover livremente entre tarefas de processamento de linguagem natural (NLP) e Computer Vision. Novos modelos também estão incorporando o vídeo: no final de janeiro, o Google anunciou o Lumiere, um modelo de difusão de texto para vídeo que também pode executar tarefas de imagem para vídeo ou usar imagens como referência de estilo.

O benefício mais imediato da IA multimodal é aplicações de IA e assistentes virtuais mais intuitivos e versáteis. Os usuários podem, por exemplo, perguntar sobre uma imagem e receber uma resposta em linguagem natural, ou pedir em voz alta instruções para reparar algo e receber recursos visuais juntamente com instruções de texto passo a passo.

Em um nível superior, a IA multimodal permite que um modelo processe entradas de dados mais diversas, enriquecendo e expandindo as informações disponíveis para treinamento e inferência. O vídeo, em particular, oferece um grande potencial para o aprendizado holístico. "Há câmeras que estão operando 24 horas por dia, sete dias por semana e estão capturando o que acontece da mesma forma que acontece sem qualquer filtragem, sem qualquer intenção", diz Peter Norvig, Distinguished Education Fellow do Stanford Institute for Human-Centered Artificial Intelligence (HAI).[3] "Os modelos de IA nunca tiveram esse tipo de dados antes. Esses modelos terão uma melhor compreensão de tudo.”

Modelos de linguagem menores e avanços de código aberto

Em modelos específicos de domínio, especialmente LLMs, provavelmente chegamos ao ponto de diminuir os retornos de contagens de parâmetros maiores. Sam Altman, CEO da OpenAI (cujo modelo GPT-4 supostamente tem cerca de 1,76 trilhão de parâmetros), sugeriu isso no evento Imagination in Action do MIT em abril passado: "Acho que estamos no fim da era em que esses modelos gigantes serão criados, e nós os tornaremos melhores de outras maneiras", ele previu. "Acho que tem havido muito foco na contagem de parâmetros."

Modelos maciços deram o pontapé inicial nessa era de ouro da IA, mas não estão isentos de desvantagens. Apenas as maiores empresas têm os fundos e espaço no servidor para treinar e manter modelos que consomem muita energia, com centenas de bilhões de parâmetros. De acordo com uma estimativa da University of Washington, treinar um único modelo do tamanho de um GPT-3 exige o consumo anual de eletricidade de mais de 1.000 residências; um dia padrão de consultas do ChatGPT equivale ao consumo diário de energia de 33.000 residências nos EUA.[4]

Modelos menores, por sua vez, consomem muito menos recursos. Um influente documento de março de 2022 (link externo a ibm.com) da Deepmind demonstrou que o treinamento de modelos menores em mais dados gera melhor desempenho do que o treinamento de modelos maiores em menos dados. Grande parte da inovação contínua nos LLMs concentrou-se, portanto, em produzir maiores resultados com menos parâmetros. Conforme demonstrado pelo progresso recente dos modelos na faixa de três a 70 bilhões de parâmetros, particularmente aqueles construídos sobre os modelos de fundação LLaMa, Llama 2 e Mistral em 2023, os modelos podem ser reduzidos sem muito sacrifício de desempenho.

O poder dos modelos abertos continuará a crescer. Em dezembro de 2023, a Mistral lançou “Mixtral”, uma mistura de modelos de especialistas (MoE) integrando oito redes neurais, cada uma com sete bilhões de parâmetros. A Mistral afirma que o Mixtral não apenas supera a variante do parâmetro 70B do Llama 2 na maioria dos benchmarks em velocidades de inferência seis vezes mais rápidas, mas que até iguala ou supera muito o GPT-3.5 maior do OpenAI na maioria dos benchmarks padrão. Pouco tempo depois, a Meta anunciou em janeiro que já havia iniciado o treinamento dos modelos Llama 3 e confirmou que eles serão de código aberto. Embora detalhes (como tamanho do modelo) não tenham sido confirmados, é razoável esperar que o Llama 3 siga a estrutura estabelecida nas duas gerações anteriores.

Esses avanços em modelos menores têm três benefícios importantes:

  • Eles ajudam a democratizar a IA: modelos menores que podem ser executados a um custo menor em um hardware mais acessível permitem que mais amadores e instituições estudem, treinem e aprimorem os modelos existentes.
  • Eles podem ser executados localmente em dispositivos menores: isso permite uma IA mais sofisticada em cenários como edge computing e Internet das coisas (IoT). Além disso, executar modelos localmente, como no smartphone do usuário, ajuda a evitar muitas preocupações de privacidade e cibersegurança que surgem da interação com dados pessoais ou proprietários confidenciais.
  • Eles tornam a IA mais explicável: quanto maior o modelo, mais difícil é identificar como e onde ele toma decisões importantes. A IA explicável é essencial para entender, melhorar e confiar nos resultados dos sistemas de IA.
Escassez de GPU e custos de nuvem

A tendência de modelos menores será impulsionada tanto pela necessidade quanto pelo vigor empresarial, à medida que os custos de computação em nuvem aumentam e a disponibilidade de hardware diminui.

“As grandes empresas (e muitas delas) estão todas tentando trazer recursos de IA internamente, e há uma certa corrida por GPUs”, diz James Landay, Vice-diretor e Diretor do Corpo Docente da Stanford HAI. “Isso criará uma enorme pressão não apenas para o aumento da produção de GPUs, mas também para que os inovadores criem soluções de hardware que sejam mais baratas e fáceis de fazer e usar.”1

Como explica um relatório da O'Reilly do final de 2023, os provedores de nuvem atualmente carregam grande parte da carga de computação: relativamente poucos adotantes de IA mantêm sua própria infraestrutura, e a escassez de hardware só aumentará os obstáculos e os custos de configuração de servidores locais. A longo prazo, isso pode pressionar para cima os custos da nuvem, à medida que os provedores atualizam e otimizam sua própria infraestrutura para atender efetivamente à demanda da IA generativa.[5]

Para as empresas, navegar nesse cenário incerto requer flexibilidade, em termos de ambos os modelos (apoiando-se em modelos menores e mais eficientes quando necessário ou em modelos maiores e mais eficientes quando prático) e do ambiente de implementação. "Não queremos restringir onde as pessoas implementam [um modelo]", disse o CEO da IBM, Arvind Krishna, em uma entrevista de dezembro de 2023 para a CNBC (link externo a ibm.com), em referência à plataforma watsonx da IBM. "Então, [se] elas quiserem implementá-lo em uma grande nuvem pública, faremos isso lá. Se elas quiserem implementá-lo na IBM, nós o faremos na IBM. Se elas quiserem fazer isso por conta própria e tiverem infraestrutura suficiente, faremos lá.”

A otimização de modelos está ficando mais acessível

A tendência de maximizar o desempenho de modelos mais compactos é bem atendida pela recente produção da comunidade de código aberto. 

Muitos avanços importantes foram (e continuarão sendo) impulsionados não apenas por novos modelos básicos, mas por novas técnicas e recursos (como conjuntos de dados de código aberto) para treinamento, ajustes, ajuste fino ou alinhamento de modelos pré-treinados. As técnicas notáveis independentes de modelo que se estabeleceram em 2023 incluem:

  • Adaptação de classificação baixa (LoRA): em vez de ajustar diretamente bilhões de parâmetros do modelo, a LoRA envolve o congelamento de pesos de modelos pré-treinados e a injeção de camadas treináveis — que representam a matriz de alterações nos pesos do modelo como duas matrizes menores (de classificação inferior) — em cada bloco transformador. Isso reduz drasticamente o número de parâmetros que precisam ser atualizados, o que, por sua vez, acelera drasticamente o ajuste fino e reduz a memória necessária para armazenar atualizações do modelo.
  • Quantização: assim como a redução da taxa de bits de áudio ou vídeo para reduzir o tamanho e a latência dos arquivos, a quantização diminui a precisão usada para representar os pontos de dados do modelo (por exemplo, de ponto flutuante de 16 bits para inteiro de 8 bits) para reduzir o uso da memória e acelerar a inferência. As técnicas de QLoRA combinam quantização com LoRA.
  • Otimização de preferência direta (DPO): modelos de chat normalmente usam aprendizado de reforço com feedback humano (RLHF) para alinhar os resultados do modelo às preferências humanas. Embora poderoso, o RLHF é complexo e instável. O DPO promete benefícios semelhantes, sendo computacionalmente leve e substancialmente mais simples.

Juntamente com os avanços paralelos em modelos de código aberto no espaço de parâmetros de três a 70 bilhões, essas técnicas em evolução podem mudar a dinâmica do cenário da IA ao fornecer a participantes menores, como startups e amadores, recursos sofisticados de IA que antes estavam fora de alcance.

Modelos locais e pipelines de dados personalizados

Portanto, as empresas em 2024 podem buscar a diferenciação por meio do desenvolvimento de modelos sob medida, em vez de criar wrappers em torno de serviços reempacotados da "Big AI". Com a framework certa de dados e desenvolvimento, os modelos e ferramentas de IA de código aberto existentes podem ser personalizados para praticamente qualquer cenário do mundo real, desde o uso do atendimento ao cliente até o gerenciamento da cadeia de suprimentos e a análise de documentos complexos.

Os modelos de código aberto oferecem às organizações a oportunidade de desenvolver modelos de IA personalizados poderosos (treinados em seus dados proprietários e ajustados a suas necessidades específicas) rapidamente, sem investimentos proibitivamente caros em infraestrutura. Isso é especialmente relevante em domínios como o jurídico, saúde ou finanças, onde vocabulário e conceitos altamente especializados podem não ter sido aprendidos por modelos de base no pré-treinamento.

Jurídico, financeiro e saúde também são excelentes exemplos de setores que podem se beneficiar de modelos pequenos o suficiente para serem executados localmente em hardware modesto. Manter o treinamento de IA, a inferência e a geração aumentada de recuperação (RAG) locais evita o risco de dados proprietários ou informações pessoais confidenciais serem usados para treinar modelos de código fechado ou passarem pelas mãos de terceiros. E usar o RAG para acessar informações relevantes em vez de armazenar todo o conhecimento diretamente no próprio LLM ajuda a reduzir o tamanho do modelo, aumentando ainda mais a velocidade e reduzindo os custos.

À medida que 2024 continua a nivelar o campo de atuação do modelo, a vantagem competitiva será cada vez mais impulsionada por pipelines de dados proprietários que permitem o melhor ajuste fino do setor.

Agentes virtuais mais poderosos

Com ferramentas mais sofisticadas e eficientes e um ano de feedback do mercado à sua disposição, as empresas estão preparadas para expandir os casos de uso para agentes virtuais além de apenas chatbots simples de experiência do cliente.

À medida que os sistemas de IA aceleram e incorporam novos fluxos e formatos de informações, eles expandem as possibilidades não apenas de comunicação e acompanhamento de instruções, mas também de automação de tarefas. “2023 foi o ano em que pudemos conversar com uma IA. Várias empresas lançaram algo, mas a interação era sempre: você digita algo e ele digita algo de volta”, diz Norvig, de Stanford. “Em 2024, veremos a capacidade dos agentes de fazer as coisas por você. Faça reservas, planeje uma viagem, conecte-se a outros serviços.”

A IA multimodal, em particular, aumenta significativamente as oportunidades de interação sem dificuldades com agentes virtuais. Por exemplo, em vez de simplesmente pedir receitas a um bot, um usuário pode apontar uma câmera para uma geladeira aberta e solicitar receitas que possam ser feitas com os ingredientes disponíveis. O Be My Eyes, um aplicativo móvel que conecta indivíduos cegos e com baixa visão a voluntários para ajudar em tarefas rápidas, está testando ferramentas de IA que ajudam os usuários a interagir diretamente com o ambiente por meio de IA multimodal em vez de esperar por um voluntário humano.

Explore o IBM watsonx Assistant: IA conversacional líder de mercado com integração sem dificuldades para as ferramentas que impulsionam seus negócios →

Regulamentação, direitos autorais e questões éticas da IA

Capacidades multimodais elevadas e barreiras reduzidas de entrada também abrem novas portas para abusos: deepfakes, problemas de privacidade, perpetuação de vieses e até mesmo a evasão das salvaguardas do CAPTCHA podem se tornar cada vez mais fáceis para os malfeitores. Em janeiro de 2024, uma onda de deepfakes explícitos de celebridades atingiu as redes sociais; pesquisas de maio de 2023 indicaram que houve oito vezes mais deepfakes de voz postados online em comparação com o mesmo período de 2022.[6]

A ambiguidade no ambiente regulatório pode retardar a adoção, ou pelo menos uma implementação mais agressiva, a curto e médio prazo. Há um risco inerente a qualquer investimento grande e irreversível em uma tecnologia ou prática emergente que possa exigir uma reformulação significativa, ou até mesmo se tornar ilegal, após uma nova legislação ou mudanças nos ventos políticos contrários nos próximos anos.

Em dezembro de 2023, a União Europeia (UE) chegou ao acordo provisório sobre a Lei de Inteligência Artificial (link externo a ibm.com). Entre outras medidas, ela proíbe a obtenção indiscriminada de imagens para criar bancos de dados de reconhecimento facial, sistemas de categorização biométrica com potencial para viés discriminatório, sistemas de "pontuação social" e o uso de IA para manipulação social ou econômica. Também busca definir uma categoria de sistemas de IA de “alto risco”, com potencial para ameaçar a segurança, os direitos fundamentais ou o estado de direito, que estarão sujeitos a supervisão adicional. Da mesma forma, define requisitos de transparência para o que chama de sistemas de "IA de uso geral (GPAI)" — modelos de base — incluindo documentação técnica e testes adversários sistêmicos.

Mas embora alguns dos principais atores, como a Mistral, residam na UE, a maior parte do desenvolvimento inovador da IA está acontecendo nos Estados Unidos, onde a legislação substantiva da IA no setor privado exigirá ação do Congresso, o que pode ser improvável em um ano eleitoral. Em 30 de outubro, a administração Biden emitiu uma ordem executiva abrangente (link externo a ibm.com) detalhando 150 requisitos para o uso de tecnologias de IA por agências federais; meses antes, a administração garantiu compromissos voluntários de desenvolvedores de IA proeminentes (link externo a ibm.com) para aderir a certas proteções de confiança e segurança. Notavelmente, tanto a Califórnia quanto o Colorado estão buscando ativamente sua própria legislação em relação aos direitos de privacidade de dados dos indivíduos em relação à inteligência artificial.

A China agiu de forma mais proativa em relação às restrições formais da IA, proibindo a discriminação de preços por algoritmos de recomendação nas redes sociais e exigindo a rotulagem clara do conteúdo gerado por IA. As regulamentações prospectivas sobre a IA generativa buscam exigir que os dados de treinamento usados para treinar LLMs e o conteúdo gerado posteriormente pelos modelos devem ser "verdadeiros e precisos", o que os especialistas adotaram para indicar medidas para censurar a saída de LLM.

Enquanto isso, o papel do material protegido por direitos autorais no treinamento de modelos de IA usados para geração de conteúdo, de modelos de linguagem a geradores de imagens e modelos de vídeo, continua sendo uma questão muito contestada. O resultado do processo de grande repercussão movido pelo New York Times contra a OpenAI (link externo a ibm.com) pode afetar significativamente a trajetória da legislação de IA. Ferramentas adversárias, como Glaze (link externo a ibm.com) e Nightshade (link externo a ibm.com), ambas desenvolvidas na University of Chicago, surgiram no que pode se tornar uma espécie de corrida armamentista entre criadores e desenvolvedores de modelos.

Shadow AI (e políticas corporativas de IA)

Para as empresas, esse potencial crescente de consequências legais, regulatórias, econômicas ou de reputação é agravado pela popularidade e acessibilidade das ferramentas de IA generativa. As organizações devem não apenas ter uma política corporativa cuidadosa, coerente e claramente articulada em torno da IA generativa, mas também ter cuidado com a shadow AI: o uso pessoal “não oficial” da IA no local de trabalho pelos funcionários.

Também apelidada de "shadow IT" ou "BYOAI", a shadow AI surge quando funcionários impacientes que buscam soluções rápidas (ou simplesmente querem explorar novas tecnologias mais rápido do que uma política cautelosa da empresa permite) implementam a IA generativa no local de trabalho sem passar pela TI para aprovação ou supervisão. Muitos serviços voltados para o consumidor, alguns gratuitos, permitem que até mesmo indivíduos não técnicos improvisem o uso de ferramentas de IA generativa. Em um estudo da Ernst & Young, 90% dos entrevistados disseram que usam a IA no trabalho.[7]

Esse espírito empreendedor pode ser ótimo, no vácuo, mas funcionários ansiosos podem não ter informações ou perspectivas relevantes sobre segurança, privacidade ou conformidade. Isso pode expor as empresas a um grande risco. Por exemplo, um funcionário pode, sem saber, alimentar segredos comerciais em um modelo de IA voltado para o público que treina continuamente com entradas de usuários ou usar material protegido por direitos autorais para treinar um modelo proprietário para geração de conteúdo e expor sua empresa a ações legais.

Como muitos desenvolvimentos em andamento, isso ressalta como os perigos da IA generativa aumentam quase linearmente com seus recursos. Com grandes poderes, vêm grandes responsabilidades.

O futuro

À medida que avançamos em um ano crucial para a inteligência artificial, entender e se adaptar às tendências emergentes é essencial para maximizar o potencial, minimizar os riscos e escalar de forma responsável a adoção da IA generativa.

Autor
Dave Bergmann Writer, Data & AI
Notas de rodapé

1“Gartner Places Generative AI on the Peak of Inflated Expectations on the 2023 Hype Cycle for Emerging Technologies” (link externo a ibm.com), Gartner, 16 de agosto de 2023

2 ”Deloitte’s State of Generative AI in the Enteprrise Quarter one report” (link externo a ibm.com), Deloitte, janeiro de 2024

3 ”What to Expect in AI in 2024” (link externo a ibm.com), Stanford University, 8 de dezembro de 2023

4 ”Q&A: UW researcher discusses just how much energy ChatGPT uses” (link externo a ibm.com), University of Washington, 27 de julho de 2023

5 “Generative AI in the Enterprise” (link externo a ibm.com), O’Reilly, 28 de novembro de 2023

6 ”Deepfaking it: America’s 2024 election coincides with AI boom” (link externo a ibm.com), Reuters, 30 de maio de 2023

7 ”How organizations can stop skyrocketing AI use from fueling anxiety” (link externo a ibm.com), Ernst & Young, dezembro de 2023