Deepseek의 놀랍도록 저렴한 (아직 대규모 자금 지원) AI 경쟁자
중국 AI 스타트 업인 Deepseek은 새로운 챗봇으로 파도를 만들어 인상적인 기능을 저렴한 비용으로 자랑했습니다. 챗봇의 소개 : "안녕하세요, 나는 당신이 무엇이든 물어보고 당신을 놀라게 할 수있는 대답을 얻을 수 있도록 만들어졌습니다."그 야망을 반영합니다. 그 영향은 이미 명백하며 Nvidia의 주가의 상당한 하락에 기여합니다.
이미지 : ensigame.com
DeepSeek V3의 성공은 다음과 같은 혁신적인 건축 및 교육 방법에서 비롯됩니다.
- MTP (Multi-Token Prediction) : 여러 단어를 동시에 예측하여 정확도와 효율성을 높입니다.
- 전문가 혼합 (MOE) : 256 개의 신경망을 활용하여 각 토큰 당 8 개를 활성화하고 교육 가속화 및 성능 향상.
- MLA (Multi-Head Prentent Attention) : 주요 문장 부분에 반복적으로 초점을 맞추고 정보 손실을 최소화하고 미묘한 이해를 향상시킵니다.
DeepSeek은 처음에 2048 GPU를 사용하여 6 백만 달러의 교육 비용을 주장했습니다. 그러나 Semianalysis는 훨씬 더 큰 인프라를 나타 냈습니다. 약 50,000 개의 NVIDIA HOPPER GPU (H800, H100 및 H20 단위 포함)가 여러 데이터 센터에 퍼져서 총 16 억 달러의 서버 투자와 운영 비용으로 9 억 9,400 만 달러를 확산했습니다.
이미지 : ensigame.com
Deepseek은 고위 헤지 펀드의 자회사 인 클라우드 관련 경쟁 업체와 달리 데이터 센터를 소유하고 있으며 더 빠른 혁신과 최적화를 장려합니다. 자체 자금을 지원하는 특성은 민첩성과 빠른 의사 결정에 기여합니다. 이 회사는 최고의 인재를 유치하며 일부 연구자들은 주로 중국 대학에서 매년 130 만 달러 이상을 벌고 있습니다.
이미지 : ensigame.com
사전 훈련 GPU 비용만을 대표하는 6 백만 달러는 창립 이후 5 억 달러를 초과하는 전체 투자를 크게 과소 평가합니다. 그러나 Deepseek의 린 구조는 더 크고 관료주의 경쟁자에 비해 효율적인 혁신을 허용합니다.
이미지 : ensigame.com
Deepseek의 성공은 잘 자금을 지원하는 독립 AI 회사의 잠재력을 강조합니다. "혁신적인 예산"주장은 틀림없이 팽창되지만 경쟁 업체에 대한 비용 효율성 (예 : R1의 경우 5 백만 달러, ChatGPT4O의 경우 1 억 달러)은 부인할 수 없습니다. 그 성과는 상당한 투자, 기술 발전 및 고도로 숙련 된 팀에 기인합니다.