DeepSeek的负担能力是一个神话：革命性的AI实际上花费了16亿美元

DeepSeek的新聊天机器人拥有令人印象深刻的介绍：“嗨，我被创建了，您可以问任何东西，并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物，已迅速成为主要市场参与者，甚至导致NVIDIA的股价大幅下降。它的成功源于一种独特的建筑和培训方法，并结合了几种创新技术。

多语预测（MTP）：与传统的单词预测不同，MTP同时预测多个单词，分析各种句子以提高准确性和效率。

专家的混合（MOE）：该体系结构利用多个神经网络来处理输入数据，加速AI训练并提高性能。 DeepSeek V3使用256个神经网络，为每个令牌处理任务激活8个。

多头潜在注意力（MLA）： MLA专注于关键的句子元素，反复从文本片段中提取关键细节，以最大程度地减少信息丢失并捕获细微的细微差别。

DeepSeek最初仅使用2048 GPU，其强大的DeepSeek V3车型的培训成本非常低600万美元。然而，半分析显示出更大的基础设施：在多个数据中心分布了大约50,000个NVIDIA HOPPER GPU（包括10,000 H800、10,000 H100和其他H20 GPU）。这意味着服务器投资约为16亿美元，运营费用估计为9.44亿美元。

与许多依赖云服务的初创公司不同，中国对冲基金的子公司DeepSeek拥有其数据中心。这为优化和更快的创新实施提供了更大的控制。该公司的自我资助性质提高了灵活性和决策速度。此外，DeepSeek吸引了顶尖人才，一些研究人员每年收入超过130万美元，主要是从中国领先的大学招募。

最初的600万美元数字（DeepSeek）澄清了，仅反映了培训前的GPU成本，不包括研究，改进，数据处理和整体基础架构。该公司对AI开发的总投资超过5亿美元。尽管进行了大量投资，但DeepSeek的简化结构允许有效的创新实施。

DeepSeek的成功突出了一家资金充足的独立AI公司的竞争潜力。尽管“革命预算”主张可以说是夸大的，但该公司的成就是不可否认的，这是由于巨大的投资，技术突破和强大的团队。在比较培训成本时，对比很明显：DeepSeek的R1耗资500万美元，而ChatGpt4的成本为1亿美元，即使DeepSeek的相对成本效益也证明了其大量的整体投资。

DeepSeek测试 DeepSeek V3