Deepseek es el competidor de IA sorprendentemente asequible (pero financiado masivo)
Deepseek, una startup de IA china, ha hecho olas con su nuevo chatbot, con capacidades impresionantes a un costo supuestamente bajo. La introducción del chatbot: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que pueda sorprenderte", refleja su ambición. Su impacto ya es evidente, contribuyendo a una caída significativa en el precio de las acciones de NVIDIA.
Imagen: ensigame.com
El éxito de Deepseek V3 proviene de sus innovadores métodos de arquitectura y capacitación, incorporando:
- Predicción múltiple (MTP): predice múltiples palabras simultáneamente, aumentando la precisión y la eficiencia.
- Mezcla de expertos (MOE): utiliza 256 redes neuronales, activando ocho para cada token, acelerando la capacitación y mejorando el rendimiento.
- Atención latente múltiple (MLA): se enfoca repetidamente en piezas clave de oraciones, minimizando la pérdida de información y mejorando la comprensión matizada.
Deepseek inicialmente reclamó un costo de capacitación de solo $ 6 millones utilizando 2048 GPU. Sin embargo, el semianálisis reveló una infraestructura mucho más grande: aproximadamente 50,000 GPU de tolva NVIDIA (incluidas las unidades H800, H100 y H20) se distribuyen en múltiples centros de datos, por un total de alrededor de $ 1.6 mil millones en inversiones en servidor y $ 944 millones en gastos operativos.
Imagen: ensigame.com
Una subsidiaria del Fondo de cobertura de alto flyer, Deepseek posee sus centros de datos, a diferencia de los competidores libres de nubes, fomentando una innovación y optimización más rápidas. Su naturaleza autofinanciada contribuye a la agilidad y la rápida toma de decisiones. La compañía atrae a los mejores talentos, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de universidades chinas.
Imagen: ensigame.com
La cifra de $ 6 millones, que representa solo los costos de la GPU previa al entrenamiento, subestima significativamente la inversión general, superior a $ 500 millones desde su inicio. La estructura magra de Deepseek, sin embargo, permite una innovación eficiente en comparación con competidores más grandes y burocráticos.
Imagen: ensigame.com
El éxito de Deepseek destaca el potencial de las compañías de IA independientes bien financiadas. Si bien el reclamo del "presupuesto revolucionario" está posiblemente inflado, su rentabilidad en relación con los competidores (por ejemplo, $ 5 millones para R1 frente a $ 100 millones para ChatGPT4O) es innegable. Su logro se atribuye a una inversión sustancial, avances tecnológicos y un equipo altamente calificado.