Kemampuan DeepSeek adalah mitos: AI revolusioner sebenarnya berharga $ 1.6 bilion untuk berkembang

Chatbot baru Deepseek mempunyai pengenalan yang mengagumkan: "Hai, saya telah dicipta supaya anda boleh meminta apa -apa dan mendapatkan jawapan yang mungkin mengejutkan anda." AI ini, produk permulaan Cina Deepseek, dengan cepat menjadi pemain pasaran utama, bahkan menyumbang kepada penurunan harga saham Nvidia yang signifikan. Kejayaannya berasal dari metodologi seni bina dan latihan yang unik, menggabungkan beberapa teknologi inovatif.

Ramalan Multi-Token (MTP): Tidak seperti ramalan kata-kata tradisional, MTP meramalkan pelbagai perkataan secara serentak, menganalisis pelbagai bahagian ayat untuk ketepatan dan kecekapan yang dipertingkatkan.

Campuran Pakar (MOE): Senibina ini menggunakan pelbagai rangkaian saraf untuk memproses data input, mempercepat latihan AI dan meningkatkan prestasi. DeepSeek V3 menggunakan 256 rangkaian saraf, mengaktifkan lapan untuk setiap tugas pemprosesan token.

Perhatian Laten Multi-Head (MLA): MLA memberi tumpuan kepada unsur-unsur kalimat yang penting, berulang kali mengeluarkan butiran utama dari serpihan teks untuk meminimumkan kehilangan maklumat dan menangkap nuansa halus.

DeepSeek pada mulanya mendakwa kos latihan yang sangat rendah sebanyak $ 6 juta untuk model DeepSeek V3 yang kuat, menggunakan hanya 2048 GPU. Walau bagaimanapun, semianalisis mendedahkan infrastruktur yang jauh lebih besar: kira -kira 50,000 GPU NVIDIA Hopper (termasuk 10,000 H800, 10,000 H100, dan GPU tambahan H20) diedarkan di pelbagai pusat data. Ini diterjemahkan kepada pelaburan pelayan kira -kira $ 1.6 bilion dan perbelanjaan operasi yang dianggarkan sebanyak $ 944 juta.

DeepSeek, anak syarikat dana lindung nilai Cina yang tinggi, memiliki pusat datanya, tidak seperti banyak pemula yang bergantung kepada perkhidmatan awan. Ini memberikan kawalan yang lebih besar ke atas pengoptimuman dan pelaksanaan inovasi yang lebih cepat. Sifat yang dibiayai sendiri oleh syarikat itu meningkatkan kelajuan fleksibiliti dan membuat keputusan. Tambahan pula, DeepSeek menarik bakat teratas, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setiap tahun, terutamanya merekrut dari universiti -universiti China yang terkemuka.

Angka awal $ 6 juta, DeepSeek menjelaskan, hanya mencerminkan kos GPU pra-latihan, tidak termasuk penyelidikan, penghalusan, pemprosesan data, dan infrastruktur keseluruhan. Jumlah pelaburan syarikat dalam pembangunan AI melebihi $ 500 juta. Walaupun pelaburan besar ini, struktur yang diselaraskan DeepSeek membolehkan pelaksanaan inovasi yang cekap.

Kejayaan DeepSeek menyoroti potensi kompetitif syarikat AI bebas yang dibiayai dengan baik. Walaupun tuntutan "belanjawan revolusioner" boleh dibesar -besarkan, pencapaian syarikat tidak dapat dinafikan, akibat daripada pelaburan yang signifikan, kejayaan teknologi, dan pasukan yang kuat. Sebaliknya adalah sangat membandingkan kos latihan: DeepSeek's R1 berharga $ 5 juta, manakala CHATGPT4 menelan belanja $ 100 juta yang dilaporkan dalam keberkesanan kos relatif DeepSeek, walaupun dengan pelaburan keseluruhannya yang besar.

Ujian DeepSeek DeepSeek V3