Deepseek's verrassend betaalbare (maar toch massaal gefinancierde) AI -concurrent
Deepseek, een Chinese AI -startup, heeft golven gemaakt met zijn nieuwe chatbot, met indrukwekkende mogelijkheden tegen een zogenaamd lage kosten. De introductie van de chatbot: "Hallo, ik ben gemaakt zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zou kunnen verrassen", weerspiegelt de ambitie. De impact ervan is al duidelijk, wat bijdraagt aan een aanzienlijke daling van de aandelenkoers van Nvidia.
Afbeelding: ensigame.com
Het succes van Deepseek V3 komt voort uit zijn innovatieve architectuur- en trainingsmethoden, met: met:
- Multi-token voorspelling (MTP): voorspelt tegelijkertijd meerdere woorden, waardoor de nauwkeurigheid en efficiëntie worden verhoogd.
- Mix van experts (MOE): gebruikt 256 neurale netwerken, activeren acht voor elk token, versnellen training en het verbeteren van de prestaties.
- Multi-head latente aandacht (MLA): richt zich herhaaldelijk op belangrijke zinsdelen, het minimaliseren van informatieverlies en het verbeteren van genuanceerd begrip.
Deepseek claimde aanvankelijk een trainingskosten van slechts $ 6 miljoen met behulp van 2048 GPU's. Semianyse onthulde echter een veel grotere infrastructuur: ongeveer 50.000 NVIDIA -hopper GPU's (inclusief H800, H100 en H20 -eenheden) verspreidde zich over meerdere datacenters, in totaal ongeveer $ 1,6 miljard aan serverinvesteringen en $ 944 miljoen aan operationele kosten.
Afbeelding: ensigame.com
Een dochteronderneming van het hoogvlieger hedgefonds, Deepseek bezit zijn datacenters, in tegenstelling tot cloud-reliante concurrenten, die snellere innovatie en optimalisatie bevorderen. De zelf gefinancierde aard draagt bij aan behendigheid en snelle besluitvorming. Het bedrijf trekt toptalent aan, met sommige onderzoekers die jaarlijks meer dan $ 1,3 miljoen verdienen, voornamelijk van Chinese universiteiten.
Afbeelding: ensigame.com
Het cijfer van $ 6 miljoen, dat alleen PRPU-kosten voor de training vertegenwoordigt, onderschat de totale investering aanzienlijk, van meer dan $ 500 miljoen sinds de oprichting. De magere structuur van Deepseek zorgt echter voor efficiënte innovatie in vergelijking met grotere, meer bureaucratische concurrenten.
Afbeelding: ensigame.com
Het succes van Deepseek benadrukt het potentieel van goed gefinancierde onafhankelijke AI-bedrijven. Hoewel de claim "revolutionaire budget" aantoonbaar is opgeblazen, is de kosteneffectiviteit ten opzichte van concurrenten (bijv. $ 5 miljoen voor R1 versus $ 100 miljoen voor chatgpt4o) niet te ontkennen. De prestatie ervan wordt toegeschreven aan substantiële investeringen, technologische vooruitgang en een zeer bekwaam team.