De nieuwe Chatbot van Deepseek heeft een indrukwekkende introductie: "Hallo, ik ben gemaakt zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zelfs zou verrassen." Deze AI, een product van de Chinese startup Deepseek, is snel een belangrijke marktspeler geworden en heeft zelfs bijgedragen aan een aanzienlijke daling van de aandelenkoers van Nvidia. Het succes ervan komt voort uit een unieke architectuur- en trainingsmethode, met verschillende innovatieve technologieën.
Multi-Token Prediction (MTP): in tegenstelling tot traditionele voorspelling van het woord voor woord voorspelt MTP meerdere woorden tegelijkertijd en analyseert MTP verschillende zinsdelen voor verbeterde nauwkeurigheid en efficiëntie.
Mix van experts (MOE): deze architectuur maakt gebruik van meerdere neurale netwerken om invoergegevens te verwerken, AI -training te versnellen en de prestaties te verbeteren. Deepseek V3 gebruikt 256 neurale netwerken en activeert acht voor elke tokenverwerkingstaak.
Multi-head latente aandacht (MLA): MLA richt zich op cruciale zinselementen, die belangrijke details uit tekstfragmenten herhaaldelijk extraheren om informatieverlies te minimaliseren en subtiele nuances vast te leggen.
Deepseek claimde aanvankelijk een opmerkelijk lage trainingskosten van $ 6 miljoen voor zijn krachtige Deepseek V3 -model, met slechts 2048 GPU's. Semianyse onthulde echter een veel meer substantiële infrastructuur: ongeveer 50.000 Nvidia Hopper GPU's (inclusief 10.000 H800, 10.000 H100 en extra H20 GPU's) verdeeld over meerdere datacenters. Dit vertaalt zich in een serverinvestering van ongeveer $ 1,6 miljard en operationele kosten geschat op $ 944 miljoen.
Deepseek, een dochteronderneming van het Chinese hedgefonds High Flyer, bezit zijn datacenters, in tegenstelling tot veel startups die afhankelijk zijn van cloudservices. Dit biedt meer controle over optimalisatie en snellere innovatie -implementatie. De zelf gefinancierde aard van het bedrijf verbetert de flexibiliteit en de besluitvormingssnelheid. Bovendien trekt Deepseek toptalent aan, met sommige onderzoekers die jaarlijks meer dan $ 1,3 miljoen verdienen, voornamelijk aan het werven van toonaangevende Chinese universiteiten.
Het aanvankelijke cijfer van $ 6 miljoen, verduidelijkt Deepseek, weerspiegelt alleen pre-training GPU-kosten, exclusief onderzoek, verfijning, gegevensverwerking en algemene infrastructuur. De totale investering van het bedrijf in AI -ontwikkeling is groter dan $ 500 miljoen. Ondanks deze substantiële investering maakt de gestroomlijnde structuur van Deepseek een efficiënte implementatie van innovatie mogelijk.
Het succes van Deepseek benadrukt het concurrentiepotentieel van een goed gefinancierd onafhankelijk AI-bedrijf. Hoewel de claim "revolutionaire begroting" aantoonbaar overdreven is, valt de prestaties van het bedrijf niet te ontkennen, als gevolg van aanzienlijke investeringen, technologische doorbraken en een sterk team. Het contrast is grimmig bij het vergelijken van trainingskosten: de R1 van Deepseek kost $ 5 miljoen, terwijl chatgpt4 een gerapporteerde $ 100 miljoen kostte-de relatieve kosteneffectiviteit van Deepseek, zelfs met de substantiële algehele investering.