Deepseekの驚くほど手頃な価格(まだ資金提供されている)AI競合他社
中国のAIスタートアップであるDeepseekは、新しいチャットボットを備えた波を起こし、低コストで印象的な機能を誇っています。チャットボットの紹介:「こんにちは、私は何でも尋ねて、あなたを驚かせるかもしれない答えを得ることができるように作成されました」とその野心を反映しています。その影響はすでに明らかであり、Nvidiaの株価の大幅な低下に貢献しています。
画像:Ensigame.com
Deepseek V3の成功は、革新的なアーキテクチャとトレーニング方法に由来しています。
- マルチトークン予測(MTP):複数の単語を同時に予測し、精度と効率を高めます。
- 専門家(MOE)の混合: 256のニューラルネットワークを利用し、トークンごとに8つのアクティブを活性化し、トレーニングを加速し、パフォーマンスを向上させます。
- マルチヘッドの潜在的注意(MLA):キー文の部分に繰り返し焦点を当て、情報の損失を最小限に抑え、微妙な理解を高めます。
Deepseekは当初、2048 GPUを使用してわずか600万ドルのトレーニング費用を主張しました。ただし、セミアナの癒しにより、はるかに大きなインフラストラクチャが明らかになりました。約50,000のNVIDIAホッパーGPU(H800、H100、およびH20ユニットを含む)が複数のデータセンターに広がり、合計約16億ドル、運営費は9億4,400万ドルです。
画像:Ensigame.com
High-Flyer Hedge Fundの子会社であるDeepseekは、クラウドに依存している競合他社とは異なり、データセンターを所有しており、より速いイノベーションと最適化を促進しています。その自己資金による性質は、敏ility性と迅速な意思決定に貢献しています。同社はトップの才能を引き付け、一部の研究者は主に中国の大学で年間130万ドル以上を稼いでいます。
画像:Ensigame.com
トレーニング前のGPUコストのみを表す600万ドルの数値は、全体的な投資を大幅に控えめに控えめにし、その創業以来5億ドルを超えています。しかし、Deepseekの無駄のない構造は、より大きく、より官僚的な競合他社と比較して、効率的なイノベーションを可能にします。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業の可能性を強調しています。 「革新的な予算」請求は間違いなく膨らんでいますが、競合他社に対する費用対効果(たとえば、R1の場合は500万ドル対ChatGPT4Oの1億ドル)は否定できません。その成果は、実質的な投資、技術の進歩、高度なスキルのあるチームに起因しています。