L'abordabilité de Deepseek est un mythe: l'IA révolutionnaire a coûté 1,6 milliard de dollars pour développer

Le nouveau chatbot de Deepseek possède une introduction impressionnante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette IA, un produit de la startup chinoise Deepseek, est rapidement devenue un acteur majeur du marché, contribuant même à une baisse significative du cours des actions de NVIDIA. Son succès découle d'une méthodologie d'architecture et de formation unique, incorporant plusieurs technologies innovantes.

Prédiction multi-token (MTP): Contrairement à la prédiction traditionnelle mot par mot, MTP prévoit plusieurs mots simultanément, en analysant diverses parties de phrases pour une précision et une efficacité améliorées.

Mélange d'experts (MOE): Cette architecture utilise plusieurs réseaux de neurones pour traiter les données d'entrée, accélérer la formation d'IA et améliorer les performances. Deepseek V3 utilise 256 réseaux de neurones, activant huit pour chaque tâche de traitement des jetons.

Attention latente multi-têtes (MLA): MLA se concentre sur les éléments de phrase cruciaux, extrait à plusieurs reprises les détails clés des fragments de texte pour minimiser la perte d'informations et capturer des nuances subtiles.

Deepseek a initialement réclamé un coût de formation remarquablement faible de 6 millions de dollars pour son puissant modèle V3 Deepseek, en utilisant seulement 2048 GPU. Cependant, la semianalyse a révélé une infrastructure beaucoup plus substantielle: environ 50 000 GPU Nvidia Hopper (dont 10 000 H800, 10 000 H100 et des GPU H20 supplémentaires) distribués dans plusieurs centres de données. Cela se traduit par un investissement de serveur d'environ 1,6 milliard de dollars et les dépenses opérationnelles estimées à 944 millions de dollars.

Deepseek, une filiale du High Flyer chinois, possède ses centres de données, contrairement à de nombreuses startups qui reposent sur les services cloud. Cela fournit un plus grand contrôle sur l'optimisation et la mise en œuvre plus rapide de l'innovation. La nature autofinancée de l'entreprise améliore la flexibilité et la vitesse de prise de décision. En outre, Deepseek attire les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, recrutant principalement dans les grandes universités chinoises.

Le chiffre initial de 6 millions de dollars ,lateek clarifie, ne reflète que les coûts de GPU avant la formation, l'exclusion de la recherche, le raffinement, le traitement des données et l'infrastructure globale. L'investissement total de la société dans le développement de l'IA dépasse 500 millions de dollars. Malgré cet investissement substantiel, la structure rationalisée de Deepseek permet une mise en œuvre efficace de l'innovation.

Le succès de Deepseek met en évidence le potentiel compétitif d'une entreprise d'IA indépendante bien financée. Bien que la réclamation du "budget révolutionnaire" soit sans doute exagérée, les réalisations de l'entreprise sont indéniables, résultant d'investissements importants, de percées technologiques et d'une équipe solide. Le contraste est frappant lors de la comparaison des coûts de formation: le R1 de Deepseek coûte 5 millions de dollars, tandis que ChatGpt4 a coûté 100 millions de dollars à la recherche de rentabilité relative de Deepseek, même avec son investissement global substantiel.

Test de profondeur Deepseek v3 En profondeur