Deepseek é surpreendentemente acessível (ainda que financiado) concorrente de IA)
A Deepseek, uma startup de IA chinesa, fez ondas com seu novo chatbot, com recursos impressionantes a um custo supostamente baixo. A introdução do chatbot: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo", reflete sua ambição. Seu impacto já é evidente, contribuindo para uma queda significativa no preço das ações da Nvidia.
Imagem: Ensigame.com
O sucesso da Deepseek V3 decorre de seus métodos inovadores de arquitetura e treinamento, incorporando:
- Previsão com vários toques (MTP): prevê várias palavras simultaneamente, aumentando a precisão e a eficiência.
- A mistura de especialistas (MOE): utiliza 256 redes neurais, ativando oito para cada token, acelerando o treinamento e melhorando o desempenho.
- Atenção latente de várias cabeças (MLA): concentra-se repetidamente nas principais peças da frase, minimizando a perda de informações e aumentando o entendimento diferenciado.
Deepseek reivindicou inicialmente um custo de treinamento de apenas US $ 6 milhões usando 2048 GPUs. No entanto, a semiânica revelou uma infraestrutura muito maior: aproximadamente 50.000 GPUs NVIDIA Hopper (incluindo unidades H800, H100 e H20) se espalharam por vários data centers, totalizando cerca de US $ 1,6 bilhão em investimento do servidor e US $ 944 milhões em despesas operacionais.
Imagem: Ensigame.com
Uma subsidiária do fundo de hedge high-flyer, a Deepseek possui seus data centers, diferentemente dos concorrentes dependentes da nuvem, promovendo inovação e otimização mais rápidas. Sua natureza autofinanciada contribui para a agilidade e a rápida tomada de decisão. A empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.
Imagem: Ensigame.com
O valor de US $ 6 milhões, representando apenas os custos de GPU pré-treinamento, subestima significativamente o investimento geral, excedendo US $ 500 milhões desde o seu início. A estrutura magra de Deepseek, no entanto, permite inovação eficiente em comparação com concorrentes maiores e mais burocráticos.
Imagem: Ensigame.com
O sucesso da Deepseek destaca o potencial de empresas independentes de IA bem financiadas. Embora a reivindicação do "orçamento revolucionário" seja inflada, sua relação custo-benefício em relação aos concorrentes (por exemplo, US $ 5 milhões por R1 vs. US $ 100 milhões para chatgpt4o) é inegável. Sua conquista é atribuída a investimentos substanciais, avanços tecnológicos e uma equipe altamente qualificada.