DeepSeek令人惊讶的负担得起(但大量资助)AI竞争对手
DeepSeek是一家中国人工智能初创公司,以其新的聊天机器人的身份引起了轰动,据称具有令人印象深刻的功能。聊天机器人的介绍:“嗨,我是被创建的,所以您可以问任何东西,并得到一个甚至可能使您感到惊讶的答案,”它的野心反映了。它的影响已经很明显,导致NVIDIA的股价大幅下降。
图片:ensigame.com
DeepSeek V3的成功源于其创新的建筑和培训方法,并结合了:
- 多语预测(MTP):同时预测多个词,提高准确性和效率。
- 专家的混合物(MOE):使用256个神经网络,每个令牌激活8个,加速训练并提高性能。
- 多头潜在注意力(MLA):反复专注于关键句子部分,最大程度地减少信息丢失并增强细微的理解。
DeepSeek最初声称使用2048 GPU的培训费用仅为600万美元。但是,半分析显示基础设施要大得多:大约50,000个NVIDIA HOPPER GPU(包括H800,H100和H20单位)分布在多个数据中心,总计约16亿美元的服务器投资和9.44亿美元的运营费用。
图片:ensigame.com
DeepSeek是高飞行对冲基金的子公司,与云依赖的竞争对手不同,拥有其数据中心,从而促进了更快的创新和优化。它的自资助性质有助于敏捷性和快速决策。该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。
图片:ensigame.com
这笔600万美元的数字仅代表GPU预培训的成本,大大低估了整体投资,自成立以来,总投资超过了5亿美元。但是,与更大的官僚竞争者相比,DeepSeek的精益结构可以有效地创新。
图片:ensigame.com
DeepSeek的成功凸显了资金充足的独立AI公司的潜力。尽管“革命预算”的主张可以说是夸大的,但其相对于竞争对手的成本效益(例如,R1的500万美元,Chatgpt4o的1亿美元)是不可否认的。它的成就归因于大量投资,技术进步和高技能的团队。