Il nuovo chatbot di Deepseek vanta un'impressionante introduzione: "Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti." Questa intelligenza artificiale, un prodotto della startup cinese Deepseek, è diventata rapidamente un importante giocatore di mercato, contribuendo anche a un calo significativo del prezzo delle azioni di Nvidia. Il suo successo deriva da una metodologia di architettura e formazione unica, che incorpora diverse tecnologie innovative.
Previsione multi-token (MTP): a differenza della previsione tradizionale di parole per parola, MTP prevede contemporaneamente più parole, analizzando varie parti di frasi per una maggiore precisione ed efficienza.
Miscela di esperti (MOE): questa architettura utilizza più reti neurali per elaborare i dati di input, accelerare la formazione dell'IA e migliorare le prestazioni. DeepSeek V3 impiega 256 reti neurali, attivando otto per ogni attività di elaborazione dei token.
Attenzione latente multi-testa (MLA): MLA si concentra su elementi cruciali della frase, estraendo ripetutamente i dettagli chiave dai frammenti di testo per ridurre al minimo la perdita di informazioni e acquisire sottili sfumature.
DeepSeek inizialmente ha rivendicato un costo di allenamento notevolmente basso di $ 6 milioni per il suo potente modello DeepSeek V3, usando solo 2048 GPU. Tuttavia, la semianalisi ha rivelato un'infrastruttura molto più sostanziale: circa 50.000 GPU della tramoggia Nvidia (tra cui 10.000 H800, 10.000 H100 e GPU H20 aggiuntive) distribuite su più data center. Ciò si traduce in un investimento server di circa $ 1,6 miliardi e le spese operative stimate in $ 944 milioni.
DeepSeek, una consociata dell'Hedge Fund cinese High-Flyer, possiede i suoi data center, a differenza di molte startup che si basano sui servizi cloud. Ciò fornisce un maggiore controllo sull'ottimizzazione e l'implementazione più rapida dell'innovazione. La natura autofinanziata dell'azienda migliora la flessibilità e la velocità decisionale. Inoltre, DeepSeek attira i migliori talenti, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno, principalmente reclutando dalle principali università cinesi.
La cifra iniziale di $ 6 milioni, DeepEek chiarisce, riflette solo i costi di GPU pre-allenamento, esclusi la ricerca, il raffinamento, l'elaborazione dei dati e l'infrastruttura generale. L'investimento totale della società nello sviluppo dell'IA supera i $ 500 milioni. Nonostante questo investimento sostanziale, la struttura semplificata di Deepseek consente un'efficace implementazione dell'innovazione.
Il successo di Deepseek evidenzia il potenziale competitivo di una società di intelligenza artificiale indipendente ben finanziata. Mentre l'affermazione del "bilancio rivoluzionario" è probabilmente esagerata, i risultati dell'azienda sono innegabili, derivanti da investimenti significativi, scoperte tecnologiche e una squadra forte. Il contrasto è netto quando si confronta i costi di formazione: R1 di Deepseek costano $ 5 milioni, mentre CHATGPT4 costano $ 100 milioni segnalati, dimostrando il rapporto di costo relativo di Deepseek, anche con il suo sostanziale investimento complessivo.