Ang nakakagulat na abot -tanaw ni Deepseek (ngunit napakalaking pinondohan) na katunggali ng AI
Ang Deepseek, isang pagsisimula ng Chinese AI, ay gumawa ng mga alon kasama ang bagong chatbot, na ipinagmamalaki ang mga kahanga -hangang kakayahan sa isang purong mababang gastos. Ang pagpapakilala ng chatbot: "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka," sumasalamin sa ambisyon nito. Ang epekto nito ay maliwanag na, na nag -aambag sa isang makabuluhang pagbagsak sa presyo ng stock ni Nvidia.
Larawan: ensigame.com
Ang tagumpay ng Deepseek V3 ay nagmula sa makabagong mga pamamaraan ng arkitektura at pagsasanay, na isinasama:
- Multi-Token Prediction (MTP): Hinuhulaan ang maraming mga salita nang sabay-sabay, pagpapalakas ng kawastuhan at kahusayan.
- Paghahalo ng mga eksperto (MOE): Gumagamit ng 256 mga neural network, pag -activate ng walong para sa bawat token, pabilis na pagsasanay at pagpapabuti ng pagganap.
- Multi-head latent attention (MLA): paulit-ulit na nakatuon sa mga pangunahing bahagi ng pangungusap, pag-minimize ng pagkawala ng impormasyon at pagpapahusay ng pag-unawa sa pag-unawa.
Una nang inangkin ng Deepseek ang isang gastos sa pagsasanay na $ 6 milyon lamang gamit ang 2048 GPU. Gayunpaman, ang semianalysis ay nagsiwalat ng isang mas malaking imprastraktura: humigit -kumulang 50,000 NVIDIA HOPPER GPUs (kabilang ang H800, H100, at H20 unit) na kumalat sa maraming mga sentro ng data, na umaabot sa paligid ng $ 1.6 bilyon sa pamumuhunan ng server at $ 944 milyon sa mga gastos sa pagpapatakbo.
Larawan: ensigame.com
Ang isang subsidiary ng High-Flyer Hedge Fund, ang Deepseek ay nagmamay-ari ng mga sentro ng data nito, hindi katulad ng mga kakumpitensya sa cloud-reliant, na nagpapasigla ng mas mabilis na pagbabago at pag-optimize. Ang kalikasan na pinondohan ng sarili ay nag-aambag sa liksi at mabilis na paggawa ng desisyon. Ang kumpanya ay umaakit sa nangungunang talento, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, lalo na mula sa mga unibersidad sa Tsino.
Larawan: ensigame.com
Ang $ 6 milyong figure, na kumakatawan lamang sa mga pre-training na gastos sa GPU, makabuluhang hindi binabanggit ang pangkalahatang pamumuhunan, na lumampas sa $ 500 milyon mula nang ito ay umpisahan. Ang sandalan ng Deepseek, gayunpaman, ay nagbibigay -daan para sa mahusay na pagbabago kumpara sa mas malaki, mas maraming mga kakumpitensya sa burukrasya.
Larawan: ensigame.com
Ang tagumpay ng Deepseek ay nagtatampok ng potensyal ng mahusay na pinondohan na independiyenteng mga kumpanya ng AI. Habang ang pag-angkin ng "rebolusyonaryong badyet" ay maaaring mapalaki, ang pagiging epektibo ng gastos na nauugnay sa mga kakumpitensya (halimbawa, $ 5 milyon para sa R1 kumpara sa $ 100 milyon para sa Chatgpt4O) ay hindi maikakaila. Ang nakamit nito ay maiugnay sa malaking pamumuhunan, pagsulong sa teknolohiya, at isang mataas na bihasang koponan.