DeepSeek é uma empresa de tecnologia que oferece produtos de inteligência artificial baseados em grandes modelos de linguagem (LLM) e código aberto. DeepSeek também dá nome aos modelos de IA que ela desenvolve que impulsionam um dos principais chats de IA generativa do mercado.
No final de janeiro de 2025, seu LLM DeepSeek-R1 foi notícia nos principais meios de tecnologia e finanças pelo desempenho que rivalizava com o dos principais modelos proprietários da OpenAI, Anthropic e Google a um preço significativamente mais baixo.
As origens da DeepSeek (a empresa) remontam às da High-Flyer, um fundo de hedge chinês fundado em 2016 por um trio de cientistas da computação com foco em estratégias de negociação algorítmica. Em 2019, a empresa usou os recursos de suas operações de negociação para estabelecer uma subsidiária orientada por IA, a High-Flyer AI, investindo USD 28 milhões em treinamento de deep learning e quintuplicando esse investimento em 2021.
Em 2023, a pesquisa de IA da High-Flyer havia crescido ao ponto de justificar o estabelecimento de uma entidade separada focada exclusivamente em IA, mais especificamente no desenvolvimento de inteligência artificial geral (AGI). O laboratório de pesquisa resultante foi nomeado DeepSeek, com a High-Flyer atuando como sua principal investidora. Começando com o DeepSeek-Coder em novembro de 2023, a DeepSeek desenvolveu uma série de modelos de ponderação aberta bem conceituados, com foco principalmente em desempenho matemático e programação.
Em dezembro de 2024, o laboratório lançou o DeepSeek-V3, o LLM no qual o DeepSeek-R1 se baseia. Os desempenhos inovadores do DeepSeek-V3 e do DeepSeek-R1 posicionaram o laboratório como um líder inesperado no desenvolvimento de IA generativa no futuro.
DeepSeek-R1 é um modelo de raciocínio criado pelo ajuste fino de um LLM (DeepSeek-V3) para gerar um extenso processo de cadeia de pensamento (CoT) passo a passo antes de determinar o "resultado" final que ele fornece ao usuário. Outros modelos de raciocínio incluem o o1 da OpenAI (baseado no GPT-4o) e o o3, o Gemini Flash 2.0 Thinking do Google (baseado no Gemini Flash) e o QwQ aberto do Alibaba ("Qwen com perguntas"), baseado no seu modelo Qwen2.5.
A intuição por trás dos modelos de raciocínio vem de pesquisas iniciais que demonstram que a simples adição da frase "pense passo a passo" melhora significativamente as produções do modelo.i Pesquisas subsequentes do Google DeepMind teorizaram que o aumento da computação em tempo de teste (a quantidade de recursos usados para gerar uma produção) poderia melhorar o desempenho do modelo tanto quanto o aumento da computação em tempo de treinamento (os recursos usados para treinar um modelo).
Embora os modelos de raciocínio sejam mais lentos e caros, você ainda precisa gerar (e pagar por) todos os tokens usados para "pensar" na resposta final, e esses tokens consomem sua janela de contexto disponível – eles impulsionaram a vanguarda do desempenho de última geração desde o lançamento do o1 pela OpenAI. Em especial, a ênfase no treinamento de modelos para priorizar o planejamento e a previsão os tornou hábeis em determinadas tarefas que envolvem problemas complexos de matemática e raciocínio, antes inacessíveis aos LLMs.
Para saber mais sobre modelos de raciocínio, consulte este excelente guia visual da Maarten Grootendorst.
O desempenho do DeepSeek-R1 rivaliza com o dos principais modelos, incluindo o o1 da OpenAI e o Claude 3.5 Sonnet da Anthropic, em tarefas de matemática, programação e raciocínio.
Independentemente de qual modelo seja o "melhor", o que é subjetivo e específico para a situação, é um feito notável para um modelo aberto. Mas os aspectos mais importantes do R1 são as técnicas de treinamento que ele introduziu à comunidade de código aberto.
Normalmente, o processo de levar um LLM padrão de não treinado para pronto para os usuários finais é o seguinte:
Para modelos de raciocínio proprietários, como o o1, as informações específicas dessa etapa final costumam ser um segredo comercial muito bem guardado. Mas a DeepSeek lançou um artigo técnico detalhando seu processo.
Em sua primeira tentativa de transformar o DeepSeek-V3 em um modelo de raciocínio, o DeepSeek ignorou o ajuste fino supervisionado e passou diretamente do pré-treinamento para um esquema simples de aprendizado por reforço:
O modelo resultante (que eles lançaram como "DeepSeek-R1-Zero") aprendeu a gerar cadeias complexas de pensamento e a empregar estratégias de raciocínio que produziram um desempenho impressionante em tarefas matemáticas e de raciocínio. O processo foi simples e evitou dados rotulados caros para ajuste fino supervisionado. Infelizmente, como explica o artigo técnico, "o DeepSeek-R1-Zero encontra desafios como repetição sem fim, baixa legibilidade e mistura de idiomas."
Para treinar o sucessor do R1-Zero, o DeepSeek-R1, a DeepSeek alterou o processo:
Mas esse processo de ajuste fino é apenas metade da história. A outra metade é o modelo de base do R1: DeepSeek-V3.
O DeepSeek-V3, a espinha dorsal do DeepSeek-R1, é um modelo de linguagem somente de texto com 671 bilhões (671B) de parâmetros com mixture of experts (MoE). Particularmente para tarefas de matemática, raciocínio e programação, é indiscutivelmente o LLM de código aberto mais capaz disponível em fevereiro de 2025. Mais importante, é significativamente mais rápido e mais barato de usar do que outros LLMs líderes.
671 bilhões de parâmetros significa que é um modelo enorme. Para contextualizar, quando a Meta lançou em julho de 2024 o Llama 3.1 405B, que é 40% menor que o Deepseek-V3, seu anúncio oficial o descreveu como "o maior e mais capaz modelo de base disponível abertamente do mundo."ii O modelo do ChatGPT original, o GPT-3.5, possuía 175 bilhões de parâmetros. É importante observar que a maioria dos principais desenvolvedores, incluindo OpenAI, Anthropic e Google, não divulga a contagem de parâmetros de seus modelos proprietários.
Uma contagem maior de parâmetros normalmente aumenta a "capacidade" de um modelo para conhecimento e complexidade. Mais parâmetros significam mais formas de ajustar o modelo, o que resulta em uma maior capacidade de se ajustar aos detalhes dos dados de treinamento. Mas aumentar o número de parâmetros de um modelo também aumenta os requisitos computacionais, tornando-o mais lento e mais caro.
Então, como o DeepSeek-V3 (e, portanto, o DeepSeek-R1) é rápido e barato? A resposta está principalmente na combinação de arquitetura de especialistas e em como o DeepSeek a modificou.
MoE (mixture of experts) é uma arquitetura que divide as camadas de uma rede de neural em sub-redes separadas (ou redes de especialistas) e adiciona uma rede de passagem que encaminha os tokens para selecionar "especialistas".
Durante o treinamento, cada "especialista" acaba se especializando em um tipo específico de token – por exemplo, um especialista pode aprender a se especializar em pontuação, enquanto outro, lida com preposições – e a rede de passagem aprende a encaminhar cada token para o(s) especialista(s) mais adequado(s).
Em vez de ativar todos os parâmetros do modelo para cada token, um modelo MoE ativa apenas os "especialistas" mais adequados para aquele token. O DeepSeek-V3 tem uma contagem total de parâmetros de 671 bilhões, mas tem uma contagem de parâmetros ativos de apenas 37 bilhões. Em outras palavras, ele usa apenas 37 bilhões de seus 671 bilhões de parâmetros para cada token que lê ou produz.
Quando bem feita, essa abordagem de MoE equilibra a capacidade de sua contagem total de parâmetros com a eficiência de sua contagem de parâmetros ativos. Em termos gerais, isso explica como o DeepSeek-V3 oferece os recursos de um modelo enorme e a velocidade de um modelo menor.
As MoEs receberam muita atenção quando a Mistral AI lançou o Mixtral 8x7B no final de 2023, e houve boatos de que o GPT-4 era uma MoE. Embora alguns fornecedores de modelos, notavelmente IBM Granite, Databricks, Mistral e DeepSeek, tenham continuado a trabalhar em modelos de MoE desde então, muitos continuam se concentrando em modelos tradicionais "densos".
Então, se eles são tão bons, por que as MoEs não são mais onipresentes? Há duas explicações simples:
O DeepSeek-V3 apresenta uma série de modificações de engenharia inteligentes na arquitetura básica da MoE que aumentam sua estabilidade e, ao mesmo tempo, diminuem o uso de memória e reduzem ainda mais seus requisitos de computação. Algumas dessas modificações foram introduzidas no seu antecessor, DeepSeek-V2, em maio de 2024. Aqui estão três inovações notáveis:
O mecanismo de atenção que alimenta os LLMs envolve um grande número de multiplicações de matrizes (geralmente abreviado para "matmul" em diagramas) para calcular como cada token se relaciona com os outros. Todos esses cálculos intermediários devem ser armazenados na memória à medida que as coisas migram do input para a saída final.
A atenção latente de várias cabeças (MLA), introduzida pela primeira vez no DeepSeek-v2, "decompõe" cada matriz em 2 matrizes menores. Isso dobra o número de multiplicações, mas reduz bastante o tamanho de todo o material que você precisa armazenar na memória. Em outras palavras, ele reduz os custos de memória (enquanto aumenta os custos de computação), o que é ótimo para as MoEs, pois elas já têm baixos custos de computação, mas altos custos de memória.
Resumindo: os valores específicos de cada parâmetro no DeepSeek-v3 são representados com menos pontos decimais do que o normal. Isso reduz a precisão, mas aumenta a velocidade e reduz ainda mais o uso da memória. Normalmente, os modelos são treinados com maior precisão – geralmente 16 ou 32 bits – e depois quantizados para FP8.
A previsão de vários tokens é o que parece: em vez de prever apenas um token por vez, o modelo prevê preventivamente alguns dos próximos tokens também – o que é mais fácil falar do que fazer.
Não. Tecnicamente, o DeepSeek gastou cerca de USD 5,576 milhões na execução final do pré-treinamento do DeepSeek-V3. No entanto, esse número foi tirado drasticamente de contexto.
O DeepSeek não anunciou quanto gastou em dados e computação para produzir o DeepSeek-R1. O valor amplamente divulgado de "USD 6 milhões" é especificamente para o DeepSeek-V3.
Além disso, citar apenas o custo da execução final de pré-treinamento é enganoso. Como Kate Soule, diretora de gerenciamento de produtos técnicos da IBM para Granite, disse em um episódio do Podcast Mixture of Experts: "É como dizer que se eu vou correr uma maratona, a única distância que vou correr é 42 km. A realidade é que você vai treinar por meses, praticar, correr centenas ou milhares de quilômetros, se preparando para aquela corrida."
Até mesmo o artigo do DeepSeek-V3 deixa claro que os USD 5,576 milhões é apenas uma estimativa de quanto custaria a execução de treinamento final em termos de preços médios de aluguel para GPUs NVIDIA H800. Isso exclui todos os custos anteriores de pesquisa, experimentação e dados. Exclui também a sua infraestrutura de treinamento real (um relatório da SemiAnalysis estima que a DeepSeek investiu mais de USD 500 milhões em GPUs desde 2023), bem como os salários dos funcionários, instalações e outras despesas empresariais típicas.
Para ser claro, gastar apenas USD 5,576 milhões em uma execução de pré-treinamento para um modelo com esse tamanho e capacidade ainda é impressionante. Para fins de comparação, o mesmo relatório da SemiAnalysis afirma que o Claude 3.5 Sonnet da Anthropic – outro candidato ao LLM mais forte do mundo (no início de 2025) – custou dezenas de milhões de dólares para ser pré-treinado. Essa mesma eficiência de design também permite que o DeepSeek-V3 seja operado a custos (e latência) significativamente mais baixos do que sua concorrência.
Mas a noção de que chegamos a uma mudança drástica de paradigma ou de que os desenvolvedores ocidentais de IA gastaram bilhões de dólares sem motivo e que novos modelos de fronteira agora podem ser desenvolvidos por custos totais abaixo de 7 dígitos é equivocada.
O DeepSeek-R1 é impressionante, porém, no fim das contas, é uma versão do DeepSeek-V3, que é um modelo enorme. Apesar de sua eficiência, para muitos casos de uso, ainda é muito grande e consome muita RAM.
Em vez de desenvolver versões menores do DeepSeek-V3 e, em seguida, ajustar esses modelos, o DeepSeek adotou uma abordagem mais direta e replicável: usar a destilação de conhecimento em modelos de código aberto menores das famílias de modelos Qwen e Llama para fazê-los se comportar como o DeepSeek-R1. Eles chamaram esses modelos de "DeepSeek-R1-Distill".
A destilação de conhecimento, em essência, é uma forma abstrata de compressão de modelos. Em vez de apenas treinar um modelo diretamente nos dados de treinamento, a destilação de conhecimento treina um "modelo aluno" para emular a forma como um "modelo professor" maior processa esses dados de treinamento. Os parâmetros do modelo aluno são ajustados para produzir não apenas as mesmas produções do modelo professor, mas também o mesmo processo de pensamento –os cálculos intermediários, as previsões ou as etapas da cadeia de pensamento – do professor.
Apesar de seus nomes, os modelos "DeepSeek-R1-Distill" não são de fato DeepSeek-R1. Eles são versões dos modelos Llama e Qwen ajustados para agir como DeepSeek-R1. Embora os R1-distills sejam impressionantes por seu tamanho, eles não se equiparam ao "verdadeiro" DeepSeek-R1.
Portanto, se uma determinada plataforma afirma oferecer ou usar "R1", é aconselhável confirmar de qual "R1" ela está falando.
Entre o interesse incomparável do público e os detalhes técnicos desconhecidos, o alvoroço em torno do DeepSeek e seus modelos às vezes resultou na deturpação significativa de alguns fatos básicos.
Por exemplo, no início de fevereiro, houve uma enxurrada de histórias sobre como uma equipe da UC Berkeley aparentemente "recriou" ou "replicou" o DeepSeek-R1 por apenas USD 30.iii iv v Essa é uma manchete profundamente intrigante com implicações incríveis, se for verdade – mas é fundamentalmente imprecisa de várias maneiras:
Resumindo, a equipe da UC Berkeley não recriou o DeepSeek-R1 por USD 30. Eles simplesmente mostraram que a abordagem experimental de ajuste fino, apenas com aprendizado por reforço do DeepSeek, R1-Zero, pode ser usada para ensinar modelos pequenos a resolver problemas matemáticos complexos. O trabalho deles é interessante, impressionante e importante. Mas sem uma compreensão bastante detalhada das ofertas de modelo do DeepSeek – para o qual muitos leitores (e escritores) ocupados não têm tempo – é fácil ter uma ideia errada.
À medida que desenvolvedores e analistas passam mais tempo com esses modelos, o entusiasmo provavelmente diminuirá um pouco. Da mesma forma que um teste de QI por si só não é uma forma adequada de contratar funcionários, os resultados brutos de benchmark não são suficientes para determinar se um modelo é o "melhor" para seu caso de uso específico. Os modelos, assim como as pessoas, têm pontos fortes e fracos intangíveis que levam tempo para serem compreendidos.
Levará um tempo para determinar a eficácia e a praticidade de longo prazo desses novos modelos do DeepSeek em um ambiente formal. Conforme a WARED relatou em janeiro, o DeepSeek-R1 teve um desempenho ruim em testes de segurança e desbloqueio. Essas preocupações provavelmente precisarão ser abordadas para tornar o R1 ou V3 seguros para a maioria dos usos empresariais.
Enquanto isso, novos modelos chegarão e continuarão levando a inovação para o próximo nível. Considere que o GPT-4o e o Claude 3.5 Sonnet, os principais modelos de código fechado com os quais os modelos da DeepSeek estão sendo comparados, foram lançados pela primeira vez no verão passado: há muito tempo em termos de IA generativa. Após o lançamento do R1, o Alibaba anunciou o lançamento iminente de seu próprio modelo massivo de MoE de código aberto, o Qwen2.5-Max, que, segundo eles, supera o DeepSeek-v3 em todos os aspectos.vi Provavelmente, mais fornecedores seguirão o exemplo.
Mais importante ainda, os setores e a comunidade de código aberto experimentarão as novas ideias empolgantes que o DeepSeek trouxe, integrando-as ou adaptando-as para novos modelos e técnicas. A beleza da inovação de código aberto é que a maré alta eleva todos os barcos.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
[i] “Large language models are zero-shot reasoners,” arXiv, 24 de maio de 2022
[ii] "Introducing Llama 3.1: Our most capable models to date," Meta, 24 de julho de 2024
[iii] “Team Says They’ve Recreated DeepSeek’s OpenAI Killer for Literally USD30," Futurism, 30 de janeiro de 2025
[iv] “DeepSeek AI replicated for just USD30 using Countdown game," The Independent, 3 de fevereiro de 2025
[v] "Berkeley Research Replicate DeepSeek R1’s Core Tech for Just USD30," XYZ Labs, 26 de janeiro de 2025
[vi] "Qwen2.5-Max: Exploring the Intelligence of Large-Scale MoE Model," Qwen, 28 de janeiro de 2025