Ang kakayahang magamit ng Deepseek ay isang alamat: ang rebolusyonaryong AI ay talagang nagkakahalaga ng $ 1.6 bilyon upang mabuo

Ipinagmamalaki ng bagong chatbot ng Deepseek ang isang kahanga -hangang pagpapakilala: "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka." Ang AI na ito, isang produkto ng China Startup Deepseek, ay mabilis na naging isang pangunahing manlalaro ng merkado, kahit na nag -aambag sa isang makabuluhang pagbagsak sa presyo ng stock ni Nvidia. Ang tagumpay nito ay nagmula sa isang natatanging pamamaraan ng arkitektura at pagsasanay, na isinasama ang ilang mga makabagong teknolohiya.

Multi-Token Prediction (MTP): Hindi tulad ng tradisyonal na hula ng salita-by-word, ang mga pagtataya ng MTP ng maraming mga salita nang sabay-sabay, na sinusuri ang iba't ibang mga bahagi ng pangungusap para sa pinahusay na kawastuhan at kahusayan.

Paghahalo ng mga eksperto (MOE): Ang arkitektura na ito ay gumagamit ng maraming mga neural network upang maproseso ang data ng pag -input, pabilis ang pagsasanay sa AI at pagpapabuti ng pagganap. Ang Deepseek V3 ay gumagamit ng 256 Neural Networks, na nag -activate ng walong para sa bawat gawain sa pagproseso ng token.

Multi-head latent pansin (MLA): Ang MLA ay nakatuon sa mga mahahalagang elemento ng pangungusap, paulit-ulit na kumukuha ng mga pangunahing detalye mula sa mga fragment ng teksto upang mabawasan ang pagkawala ng impormasyon at makuha ang mga banayad na nuances.

Una nang inangkin ng Deepseek ang isang napakababang gastos sa pagsasanay na $ 6 milyon para sa malakas na modelo ng Deepseek V3, gamit lamang ang 2048 GPU. Gayunpaman, ang semianalysis ay nagsiwalat ng isang mas malaking imprastraktura: humigit -kumulang 50,000 NVIDIA HOPPER GPUs (kabilang ang 10,000 H800, 10,000 H100, at karagdagang mga H20 GPU) na ipinamamahagi sa maraming mga sentro ng data. Ito ay isinasalin sa isang pamumuhunan ng server na humigit -kumulang na $ 1.6 bilyon at mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.

Ang DeepSeek, isang subsidiary ng Chinese Hedge Fund High-flyer, ay nagmamay-ari ng mga sentro ng data nito, hindi katulad ng maraming mga startup na umaasa sa mga serbisyo sa ulap. Nagbibigay ito ng higit na kontrol sa pag -optimize at mas mabilis na pagpapatupad ng pagbabago. Ang kalikasan na pinondohan ng sarili ng kumpanya ay nagpapabuti sa kakayahang umangkop at bilis ng paggawa ng desisyon. Bukod dito, ang Deepseek ay nakakaakit ng nangungunang talento, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, lalo na ang pag -recruit mula sa nangungunang unibersidad ng Tsino.

Ang paunang $ 6 milyong figure, ang DeepSeek ay naglilinaw, sumasalamin lamang sa mga gastos sa pre-training GPU, hindi kasama ang pananaliksik, pagpipino, pagproseso ng data, at pangkalahatang imprastraktura. Ang kabuuang pamumuhunan ng kumpanya sa pag -unlad ng AI ay lumampas sa $ 500 milyon. Sa kabila ng malaking pamumuhunan na ito, ang naka -streamline na istraktura ng Deepseek ay nagbibigay -daan para sa mahusay na pagpapatupad ng pagbabago.

Ang tagumpay ng Deepseek ay nagtatampok ng mapagkumpitensyang potensyal ng isang mahusay na pinondohan na independiyenteng kumpanya ng AI. Habang ang "rebolusyonaryong badyet" na pag -angkin ay maaaring pinalaki, ang mga nagawa ng kumpanya ay hindi maikakaila, na nagreresulta mula sa makabuluhang pamumuhunan, mga pambihirang tagumpay sa teknolohiya, at isang malakas na koponan. Ang kaibahan ay stark kapag inihahambing ang mga gastos sa pagsasanay: Ang R1 ng Deepseek ay nagkakahalaga ng $ 5 milyon, habang ang ChatGPT4 ay nagkakahalaga ng isang iniulat na $ 100 milyon-na nagpapahiwatig ng kamag-anak na pagiging epektibo ng kalaliman, kahit na sa malaking pangkalahatang pamumuhunan.

Pagsubok sa Deepseek Deepseek v3