Chatbot ใหม่ของ Deepseek มีการแนะนำที่น่าประทับใจ: "สวัสดีฉันถูกสร้างขึ้นเพื่อให้คุณสามารถถามอะไรก็ได้และรับคำตอบที่อาจทำให้คุณประหลาดใจ" AI นี้ซึ่งเป็นผลิตภัณฑ์ของ Deepseek เริ่มต้นของจีนได้กลายเป็นผู้เล่นในตลาดรายใหญ่อย่างรวดเร็วแม้กระทั่งมีส่วนทำให้ราคาหุ้นของ Nvidia ลดลงอย่างมีนัยสำคัญ ความสำเร็จของมันเกิดจากสถาปัตยกรรมที่เป็นเอกลักษณ์และวิธีการฝึกอบรมโดยผสมผสานเทคโนโลยีนวัตกรรมหลายอย่าง
Multi-Token Prediction (MTP): ซึ่งแตกต่างจากการทำนายคำต่อคำแบบดั้งเดิม MTP คาดการณ์หลายคำพร้อมกันวิเคราะห์ชิ้นส่วนประโยคต่าง ๆ เพื่อเพิ่มความแม่นยำและประสิทธิภาพ
ส่วนผสมของผู้เชี่ยวชาญ (MOE): สถาปัตยกรรมนี้ใช้เครือข่ายประสาทหลายแห่งเพื่อประมวลผลข้อมูลอินพุตเร่งการฝึกอบรม AI และปรับปรุงประสิทธิภาพ Deepseek V3 มีเครือข่ายประสาท 256 เครือข่ายเปิดใช้งานแปดสำหรับงานประมวลผลโทเค็นแต่ละงาน
ความสนใจแฝงหลายหัว (MLA): MLA มุ่งเน้นไปที่องค์ประกอบประโยคที่สำคัญการสกัดรายละเอียดที่สำคัญซ้ำ ๆ จากชิ้นส่วนข้อความเพื่อลดการสูญเสียข้อมูลและจับความแตกต่างเล็กน้อย
Deepseek ในขั้นต้นอ้างว่ามีค่าใช้จ่ายในการฝึกอบรมที่ต่ำอย่างน่าทึ่งที่ $ 6 ล้านสำหรับรุ่น Deepseek V3 ที่ทรงพลังโดยใช้ GPU เพียง 2048 เท่านั้น อย่างไรก็ตาม Semianalysis เปิดเผยโครงสร้างพื้นฐานที่สำคัญยิ่งกว่า: ประมาณ 50,000 Nvidia Hopper GPU (รวมถึง 10,000 H800, 10,000 H100 และ H20 GPU เพิ่มเติม) กระจายไปทั่วศูนย์ข้อมูลหลายแห่ง สิ่งนี้แปลว่าการลงทุนเซิร์ฟเวอร์ประมาณ 1.6 พันล้านเหรียญสหรัฐและค่าใช้จ่ายในการดำเนินงานประมาณ $ 944 ล้าน
Deepseek ซึ่งเป็น บริษัท ในเครือของกองทุนป้องกันความเสี่ยงของจีนสูงเป็นเจ้าของศูนย์ข้อมูลซึ่งแตกต่างจาก บริษัท สตาร์ทอัพหลายแห่งที่พึ่งพาบริการคลาวด์ สิ่งนี้ให้การควบคุมการเพิ่มประสิทธิภาพและการใช้นวัตกรรมที่เร็วขึ้น ธรรมชาติที่ได้รับการสนับสนุนตนเองของ บริษัท ช่วยเพิ่มความยืดหยุ่นและความเร็วในการตัดสินใจ นอกจากนี้ Deepseek ยังดึงดูดความสามารถสูงสุดโดยนักวิจัยบางคนมีรายได้มากกว่า 1.3 ล้านเหรียญสหรัฐต่อปีโดยส่วนใหญ่การสรรหาจากมหาวิทยาลัยจีนชั้นนำ
ตัวเลขเริ่มต้น $ 6 ล้าน Deepseek ชี้แจงเพียงแค่สะท้อนถึงค่าใช้จ่าย GPU ก่อนการฝึกอบรมก่อนการวิจัยการปรับแต่งการประมวลผลข้อมูลและโครงสร้างพื้นฐานโดยรวม การลงทุนทั้งหมดของ บริษัท ในการพัฒนา AI เกิน $ 500 ล้าน แม้จะมีการลงทุนที่สำคัญนี้โครงสร้างที่มีความคล่องตัวของ Deepseek ช่วยให้การใช้นวัตกรรมมีประสิทธิภาพ
ความสำเร็จของ Deepseek เน้นถึงศักยภาพในการแข่งขันของ บริษัท AI อิสระที่ได้รับการสนับสนุนอย่างดี ในขณะที่การเรียกร้อง "งบประมาณการปฏิวัติ" นั้นเกินความจริงเนื้อหาความสำเร็จของ บริษัท นั้นไม่อาจปฏิเสธได้ซึ่งเป็นผลมาจากการลงทุนที่สำคัญการพัฒนาทางเทคโนโลยีและทีมที่แข็งแกร่ง ความแตกต่างนั้นเกิดขึ้นอย่างสิ้นเชิงเมื่อเปรียบเทียบค่าใช้จ่ายในการฝึกอบรม: R1 ของ Deepseek มีราคา $ 5 ล้านในขณะที่ CHATGPT4 มีค่าใช้จ่าย $ 100 ล้านรายงานการสร้างความคุ้มค่าที่สัมพันธ์กันของ Deepseek แม้จะมีการลงทุนโดยรวมที่สำคัญ