O que é DeepSeek?

Um grupo de baleias nadando representando o logo da empresa de IA deepseek

Autores

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

O que é DeepSeek?

DeepSeek é uma empresa de tecnologia que oferece produtos de inteligência artificial baseados em grandes modelos de linguagem (LLM) e código aberto. DeepSeek também dá nome aos modelos de IA que ela desenvolve que impulsionam um dos principais chats de IA generativa do mercado.

No final de janeiro de 2025, seu LLM DeepSeek-R1 foi notícia nos principais meios de tecnologia e finanças pelo desempenho que rivalizava com o dos principais modelos proprietários da OpenAI, Anthropic e Google a um preço significativamente mais baixo.

As origens da DeepSeek (a empresa) remontam às da High-Flyer, um fundo de hedge chinês fundado em 2016 por um trio de cientistas da computação com foco em estratégias de negociação algorítmica. Em 2019, a empresa usou os recursos de suas operações de negociação para estabelecer uma subsidiária orientada por IA, a High-Flyer AI, investindo USD 28 milhões em treinamento de deep learning e quintuplicando esse investimento em 2021.

Em 2023, a pesquisa de IA da High-Flyer havia crescido ao ponto de justificar o estabelecimento de uma entidade separada focada exclusivamente em IA, mais especificamente no desenvolvimento de inteligência artificial geral (AGI). O laboratório de pesquisa resultante foi nomeado DeepSeek, com a High-Flyer atuando como sua principal investidora. Começando com o DeepSeek-Coder em novembro de 2023, a DeepSeek desenvolveu uma série de modelos de ponderação aberta bem conceituados, com foco principalmente em desempenho matemático e programação.

Em dezembro de 2024, o laboratório lançou o DeepSeek-V3, o LLM no qual o DeepSeek-R1 se baseia. Os desempenhos inovadores do DeepSeek-V3 e do DeepSeek-R1 posicionaram o laboratório como um líder inesperado no desenvolvimento de IA generativa no futuro.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

O que é DeepSeek-R1?

DeepSeek-R1 é um modelo de raciocínio criado pelo ajuste fino de um LLM (DeepSeek-V3) para gerar um extenso processo de cadeia de pensamento (CoT) passo a passo antes de determinar o "resultado" final que ele fornece ao usuário. Outros modelos de raciocínio incluem o o1 da OpenAI (baseado no GPT-4o) e o o3, o Gemini Flash 2.0 Thinking do Google (baseado no Gemini Flash) e o QwQ aberto do Alibaba ("Qwen com perguntas"), baseado no seu modelo Qwen2.5.

A intuição por trás dos modelos de raciocínio vem de pesquisas iniciais que demonstram que a simples adição da frase "pense passo a passo" melhora significativamente as produções do modelo.i Pesquisas subsequentes do Google DeepMind teorizaram que o aumento da computação em tempo de teste (a quantidade de recursos usados para gerar uma produção) poderia melhorar o desempenho do modelo tanto quanto o aumento da computação em tempo de treinamento (os recursos usados para treinar um modelo).

Embora os modelos de raciocínio sejam mais lentos e caros, você ainda precisa gerar (e pagar por) todos os tokens usados para "pensar" na resposta final, e esses tokens consomem sua janela de contexto disponível – eles impulsionaram a vanguarda do desempenho de última geração desde o lançamento do o1 pela OpenAI. Em especial, a ênfase no treinamento de modelos para priorizar o planejamento e a previsão os tornou hábeis em determinadas tarefas que envolvem problemas complexos de matemática e raciocínio, antes inacessíveis aos LLMs.

Para saber mais sobre modelos de raciocínio, consulte este excelente guia visual da Maarten Grootendorst.
 

Por que o DeepSeek-R1 é importante?

O desempenho do DeepSeek-R1 rivaliza com o dos principais modelos, incluindo o o1 da OpenAI e o Claude 3.5 Sonnet da Anthropic, em tarefas de matemática, programação e raciocínio.

Independentemente de qual modelo seja o "melhor", o que é subjetivo e específico para a situação, é um feito notável para um modelo aberto. Mas os aspectos mais importantes do R1 são as técnicas de treinamento que ele introduziu à comunidade de código aberto.

Normalmente, o processo de levar um LLM padrão de não treinado para pronto para os usuários finais é o seguinte:

  1. Pré-treinamento: o modelo aprende padrões linguísticos por meio de aprendizado autosupervisionado.

  2. Ajuste fino supervisionado (SFT): o modelo aprende como aplicar esses padrões linguísticos a partir de exemplos rotulados.

  3. Aprendizado por reforço (RL): o modelo é orientado quanto a considerações mais específicas e abstratas. Para modelos padrão orientados a bate-papo, essa etapa geralmente envolve o aprendizado por reforço a partir do feedback humano (RLHF) para tornar as respostas mais úteis e inofensivas. Para modelos de raciocínio, o aprendizado por reforço é usado para incentivar um "processo de pensamento" mais profundo e mais longo.

Para modelos de raciocínio proprietários, como o o1, as informações específicas dessa etapa final costumam ser um segredo comercial muito bem guardado. Mas a DeepSeek lançou um artigo técnico detalhando seu processo.

Como o DeepSeek-R1 funciona

Em sua primeira tentativa de transformar o DeepSeek-V3 em um modelo de raciocínio, o DeepSeek ignorou o ajuste fino supervisionado e passou diretamente do pré-treinamento para um esquema simples de aprendizado por reforço:

  • Consulta ao modelo: faça uma pergunta ao modelo. Peça que ele produza seu processo de pensamento entre "<think>" e "</think>," e produza sua resposta final entre "<answer>" e "</answer>."

  • Recompensas de precisão: recompense o modelo pela qualidade de sua resposta (por exemplo, a forma como um código bem gerado é executado).

  • Recompensas de formato: recompense o modelo por usar corretamente o formato "<think>" e "<answer>" nas respostas.

O modelo resultante (que eles lançaram como "DeepSeek-R1-Zero") aprendeu a gerar cadeias complexas de pensamento e a empregar estratégias de raciocínio que produziram um desempenho impressionante em tarefas matemáticas e de raciocínio. O processo foi simples e evitou dados rotulados caros para ajuste fino supervisionado. Infelizmente, como explica o artigo técnico, "o DeepSeek-R1-Zero encontra desafios como repetição sem fim, baixa legibilidade e mistura de idiomas."

Para treinar o sucessor do R1-Zero, o DeepSeek-R1, a DeepSeek alterou o processo:

  1. Começou com um pouco de ajuste fino supervisionado convencional para evitar uma "partida a frio"

  2. Usou o aprendizado por reforço no estilo R1-Zero, com um termo de recompensa adicional para evitar a mistura de idiomas

  3. Usou o modelo ajustado por aprendizado por reforço resultante (e o modelo de base do DeepSeek-V3) para gerar mais 800.000 exemplos de ajuste fino supervisionado

  4. Adicionou mais ajuste fino supervisionado

  5. Adicionou mais aprendizado por reforço no estilo R1-Zero

  6. Usou o aprendizado por reforço com feedback humano (RLHF) convencional

Mas esse processo de ajuste fino é apenas metade da história. A outra metade é o modelo de base do R1: DeepSeek-V3.

O que é DeepSeek-V3?

O DeepSeek-V3, a espinha dorsal do DeepSeek-R1, é um modelo de linguagem somente de texto com 671 bilhões (671B) de parâmetros com mixture of experts (MoE). Particularmente para tarefas de matemática, raciocínio e programação, é indiscutivelmente o LLM de código aberto mais capaz disponível em fevereiro de 2025. Mais importante, é significativamente mais rápido e mais barato de usar do que outros LLMs líderes.

671 bilhões de parâmetros significa que é um modelo enorme. Para contextualizar, quando a Meta lançou em julho de 2024 o Llama 3.1 405B, que é 40% menor que o Deepseek-V3, seu anúncio oficial o descreveu como "o maior e mais capaz modelo de base disponível abertamente do mundo."ii O modelo do ChatGPT original, o GPT-3.5, possuía 175 bilhões de parâmetros. É importante observar que a maioria dos principais desenvolvedores, incluindo OpenAI, Anthropic e Google, não divulga a contagem de parâmetros de seus modelos proprietários.

Uma contagem maior de parâmetros normalmente aumenta a "capacidade" de um modelo para conhecimento e complexidade. Mais parâmetros significam mais formas de ajustar o modelo, o que resulta em uma maior capacidade de se ajustar aos detalhes dos dados de treinamento. Mas aumentar o número de parâmetros de um modelo também aumenta os requisitos computacionais, tornando-o mais lento e mais caro.

Então, como o DeepSeek-V3 (e, portanto, o DeepSeek-R1) é rápido e barato? A resposta está principalmente na combinação de arquitetura de especialistas e em como o DeepSeek a modificou.
 

O que é MoE (mixture of experts)?

MoE (mixture of experts) é uma arquitetura que divide as camadas de uma rede de neural em sub-redes separadas (ou redes de especialistas) e adiciona uma rede de passagem que encaminha os tokens para selecionar "especialistas".

Durante o treinamento, cada "especialista" acaba se especializando em um tipo específico de token – por exemplo, um especialista pode aprender a se especializar em pontuação, enquanto outro, lida com preposições – e a rede de passagem aprende a encaminhar cada token para o(s) especialista(s) mais adequado(s).

Em vez de ativar todos os parâmetros do modelo para cada token, um modelo MoE ativa apenas os "especialistas" mais adequados para aquele token. O DeepSeek-V3 tem uma contagem total de parâmetros de 671 bilhões, mas tem uma contagem de parâmetros ativos de apenas 37 bilhões. Em outras palavras, ele usa apenas 37 bilhões de seus 671 bilhões de parâmetros para cada token que lê ou produz.

Quando bem feita, essa abordagem de MoE equilibra a capacidade de sua contagem total de parâmetros com a eficiência de sua contagem de parâmetros ativos. Em termos gerais, isso explica como o DeepSeek-V3 oferece os recursos de um modelo enorme e a velocidade de um modelo menor.

As MoEs receberam muita atenção quando a Mistral AI lançou o Mixtral 8x7B no final de 2023, e houve boatos de que o GPT-4 era uma MoE. Embora alguns fornecedores de modelos, notavelmente IBM Granite, Databricks, Mistral e DeepSeek, tenham continuado a trabalhar em modelos de MoE desde então, muitos continuam se concentrando em modelos tradicionais "densos".

Então, se eles são tão bons, por que as MoEs não são mais onipresentes? Há duas explicações simples:

  • Como as MoEs são mais complexas, elas também são mais desafiadoras de treinar e de fazer ajuste fino.

  • Embora a arquitetura MoE reduza os custos de computação, ela não reduz os custos de memória: embora nem todos os parâmetros sejam ativados de vez, você ainda precisa armazenar todos esses parâmetros na memória para o caso de eles serem ativados para um determinado token. Portanto, as MoEs exigem tanto RAM quanto modelos densos do mesmo tamanho, o que continua sendo um grande gargalo.

Por que a MoE do DeepSeek é única?

O DeepSeek-V3 apresenta uma série de modificações de engenharia inteligentes na arquitetura básica da MoE que aumentam sua estabilidade e, ao mesmo tempo, diminuem o uso de memória e reduzem ainda mais seus requisitos de computação. Algumas dessas modificações foram introduzidas no seu antecessor, DeepSeek-V2, em maio de 2024. Aqui estão três inovações notáveis:

Atenção latente de várias cabeças (MLA)

O mecanismo de atenção que alimenta os LLMs envolve um grande número de multiplicações de matrizes (geralmente abreviado para "matmul" em diagramas) para calcular como cada token se relaciona com os outros. Todos esses cálculos intermediários devem ser armazenados na memória à medida que as coisas migram do input para a saída final.

A atenção latente de várias cabeças (MLA), introduzida pela primeira vez no DeepSeek-v2, "decompõe" cada matriz em 2 matrizes menores. Isso dobra o número de multiplicações, mas reduz bastante o tamanho de todo o material que você precisa armazenar na memória. Em outras palavras, ele reduz os custos de memória (enquanto aumenta os custos de computação), o que é ótimo para as MoEs, pois elas já têm baixos custos de computação, mas altos custos de memória.

Treinamento em FP8 (ponto flutuante de 8 bits)

Resumindo: os valores específicos de cada parâmetro no DeepSeek-v3 são representados com menos pontos decimais do que o normal. Isso reduz a precisão, mas aumenta a velocidade e reduz ainda mais o uso da memória. Normalmente, os modelos são treinados com maior precisão – geralmente 16 ou 32 bits – e depois quantizados para FP8.

Previsão de múltiplos tokens (MTP)

A previsão de vários tokens é o que parece: em vez de prever apenas um token por vez, o modelo prevê preventivamente alguns dos próximos tokens também – o que é mais fácil falar do que fazer.

 

O DeepSeek-R1 foi desenvolvido com apenas USD 5,5 milhões?

Não. Tecnicamente, o DeepSeek gastou cerca de USD 5,576 milhões na execução final do pré-treinamento do DeepSeek-V3. No entanto, esse número foi tirado drasticamente de contexto.

O DeepSeek não anunciou quanto gastou em dados e computação para produzir o DeepSeek-R1. O valor amplamente divulgado de "USD 6 milhões" é especificamente para o DeepSeek-V3.

Além disso, citar apenas o custo da execução final de pré-treinamento é enganoso. Como Kate Soule, diretora de gerenciamento de produtos técnicos da IBM para Granite, disse em um episódio do Podcast Mixture of Experts: "É como dizer que se eu vou correr uma maratona, a única distância que vou correr é 42 km. A realidade é que você vai treinar por meses, praticar, correr centenas ou milhares de quilômetros, se preparando para aquela corrida."

Até mesmo o artigo do DeepSeek-V3 deixa claro que os USD 5,576 milhões é apenas uma estimativa de quanto custaria a execução de treinamento final em termos de preços médios de aluguel para GPUs NVIDIA H800. Isso exclui todos os custos anteriores de pesquisa, experimentação e dados. Exclui também a sua infraestrutura de treinamento real (um relatório da SemiAnalysis estima que a DeepSeek investiu mais de USD 500 milhões em GPUs desde 2023), bem como os salários dos funcionários, instalações e outras despesas empresariais típicas.

Para ser claro, gastar apenas USD 5,576 milhões em uma execução de pré-treinamento para um modelo com esse tamanho e capacidade ainda é impressionante. Para fins de comparação, o mesmo relatório da SemiAnalysis afirma que o Claude 3.5 Sonnet da Anthropic – outro candidato ao LLM mais forte do mundo (no início de 2025) – custou dezenas de milhões de dólares para ser pré-treinado. Essa mesma eficiência de design também permite que o DeepSeek-V3 seja operado a custos (e latência) significativamente mais baixos do que sua concorrência.

Mas a noção de que chegamos a uma mudança drástica de paradigma ou de que os desenvolvedores ocidentais de IA gastaram bilhões de dólares sem motivo e que novos modelos de fronteira agora podem ser desenvolvidos por custos totais abaixo de 7 dígitos é equivocada.

 

Modelos DeepSeek-R1-distill

O DeepSeek-R1 é impressionante, porém, no fim das contas, é uma versão do DeepSeek-V3, que é um modelo enorme. Apesar de sua eficiência, para muitos casos de uso, ainda é muito grande e consome muita RAM.

Em vez de desenvolver versões menores do DeepSeek-V3 e, em seguida, ajustar esses modelos, o DeepSeek adotou uma abordagem mais direta e replicável: usar a destilação de conhecimento em modelos de código aberto menores das famílias de modelos Qwen e Llama para fazê-los se comportar como o DeepSeek-R1. Eles chamaram esses modelos de "DeepSeek-R1-Distill".

A destilação de conhecimento, em essência, é uma forma abstrata de compressão de modelos. Em vez de apenas treinar um modelo diretamente nos dados de treinamento, a destilação de conhecimento treina um "modelo aluno" para emular a forma como um "modelo professor" maior processa esses dados de treinamento. Os parâmetros do modelo aluno são ajustados para produzir não apenas as mesmas produções do modelo professor, mas também o mesmo processo de pensamento –os cálculos intermediários, as previsões ou as etapas da cadeia de pensamento – do professor.

Apesar de seus nomes, os modelos "DeepSeek-R1-Distill" não são de fato DeepSeek-R1. Eles são versões dos modelos Llama e Qwen ajustados para agir como DeepSeek-R1. Embora os R1-distills sejam impressionantes por seu tamanho, eles não se equiparam ao "verdadeiro" DeepSeek-R1.

Portanto, se uma determinada plataforma afirma oferecer ou usar "R1", é aconselhável confirmar de qual "R1" ela está falando.

 

Relatórios enganosos sobre o DeepSeek

Entre o interesse incomparável do público e os detalhes técnicos desconhecidos, o alvoroço em torno do DeepSeek e seus modelos às vezes resultou na deturpação significativa de alguns fatos básicos.

Por exemplo, no início de fevereiro, houve uma enxurrada de histórias sobre como uma equipe da UC Berkeley aparentemente "recriou" ou "replicou" o DeepSeek-R1 por apenas USD 30.iii iv v Essa é uma manchete profundamente intrigante com implicações incríveis, se for verdade – mas é fundamentalmente imprecisa de várias maneiras:

  • A equipe da Berkeley não recriou a técnica de ajuste fino do R1. Eles replicaram a técnica de ajuste fino apenas do RL do R1-Zero de acordo com as diretrizes do artigo técnico do DeepSeek.

  • A equipe da Berkeley não fez o ajuste fino do DeepSeek-V3, o modelo de parâmetro de 671B que serve como a espinha dorsal do DeepSeek-R1 (e do DeepSeek-R1-Zero). Em vez disso, eles ajustaram modelos pequenos de código aberto Qwen2.5 (e tiveram sucesso com as variantes de 1,5 Bi, 3 Bi e 7 Bi). Naturalmente, é muito mais barato fazer o ajuste fino de um modelo de parâmetro de 1,5 Bi do que um modelo de parâmetro de 671 Bi, dado que o primeiro é literalmente centenas de vezes menor.

  • Eles testaram apenas o desempenho de seus modelos em miniatura inspirados no R1-Zero em uma única tarefa matemática específica. Como esclareceu a engenheira Jiaya Pan, seu experimento não abordou o código ou o raciocínio geral.

Resumindo, a equipe da UC Berkeley não recriou o DeepSeek-R1 por USD 30. Eles simplesmente mostraram que a abordagem experimental de ajuste fino, apenas com aprendizado por reforço do DeepSeek, R1-Zero, pode ser usada para ensinar modelos pequenos a resolver problemas matemáticos complexos. O trabalho deles é interessante, impressionante e importante. Mas sem uma compreensão bastante detalhada das ofertas de modelo do DeepSeek – para o qual muitos leitores (e escritores) ocupados não têm tempo – é fácil ter uma ideia errada.

 

O que pode vir a seguir?

À medida que desenvolvedores e analistas passam mais tempo com esses modelos, o entusiasmo provavelmente diminuirá um pouco. Da mesma forma que um teste de QI por si só não é uma forma adequada de contratar funcionários, os resultados brutos de benchmark não são suficientes para determinar se um modelo é o "melhor" para seu caso de uso específico. Os modelos, assim como as pessoas, têm pontos fortes e fracos intangíveis que levam tempo para serem compreendidos.

Levará um tempo para determinar a eficácia e a praticidade de longo prazo desses novos modelos do DeepSeek em um ambiente formal. Conforme a WARED relatou em janeiro, o DeepSeek-R1 teve um desempenho ruim em testes de segurança e desbloqueio. Essas preocupações provavelmente precisarão ser abordadas para tornar o R1 ou V3 seguros para a maioria dos usos empresariais.

Enquanto isso, novos modelos chegarão e continuarão levando a inovação para o próximo nível. Considere que o GPT-4o e o Claude 3.5 Sonnet, os principais modelos de código fechado com os quais os modelos da DeepSeek estão sendo comparados, foram lançados pela primeira vez no verão passado: há muito tempo em termos de IA generativa. Após o lançamento do R1, o Alibaba anunciou o lançamento iminente de seu próprio modelo massivo de MoE de código aberto, o Qwen2.5-Max, que, segundo eles, supera o DeepSeek-v3 em todos os aspectos.vi Provavelmente, mais fornecedores seguirão o exemplo.

Mais importante ainda, os setores e a comunidade de código aberto experimentarão as novas ideias empolgantes que o DeepSeek trouxe, integrando-as ou adaptando-as para novos modelos e técnicas. A beleza da inovação de código aberto é que a maré alta eleva todos os barcos.

AI Academy

Torne-se um especialista em IA

Adquira conhecimento para priorizar os investimentos em IA que estimulam o crescimento dos negócios. Comece a usar hoje mesmo a nossa AI Academy sem custo e lidere o futuro da IA na sua organização.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real