El nuevo chatbot de Deepseek cuenta con una introducción impresionante: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que incluso te sorprenda". Esta IA, un producto de la startup china Deepseek, se ha convertido rápidamente en un importante jugador del mercado, incluso contribuyendo a una caída significativa en el precio de las acciones de Nvidia. Su éxito proviene de una metodología única de arquitectura y capacitación, que incorpora varias tecnologías innovadoras.
Predicción de múltiples token (MTP): a diferencia de la predicción tradicional de palabras por palabra, MTP pronostica múltiples palabras simultáneamente, analizando varias piezas de oraciones para una mayor precisión y eficiencia.
Mezcla de expertos (MOE): esta arquitectura utiliza múltiples redes neuronales para procesar datos de entrada, acelerar la capacitación de IA y mejorar el rendimiento. Deepseek V3 emplea 256 redes neuronales, activando ocho para cada tarea de procesamiento de tokens.
Atención latente múltiple (MLA): MLA se centra en elementos de oraciones cruciales, extrayendo repetidamente detalles clave de fragmentos de texto para minimizar la pérdida de información y capturar matices sutiles.
Deepseek inicialmente reclamó un costo de capacitación notablemente bajo de $ 6 millones por su poderoso modelo Deepseek V3, utilizando solo 2048 GPU. Sin embargo, el semianálisis reveló una infraestructura mucho más sustancial: aproximadamente 50,000 GPU de la tolva NVIDIA (incluidas 10,000 H800, 10,000 H100 y GPU H20 adicionales) distribuidas en múltiples centros de datos. Esto se traduce en una inversión de servidor de aproximadamente $ 1.6 mil millones y los gastos operativos estimados en $ 944 millones.
Deepseek, una subsidiaria del Fondo de cobertura chino High-Flyer, posee sus centros de datos, a diferencia de muchas nuevas empresas que dependen de los servicios en la nube. Esto proporciona un mayor control sobre la optimización y la implementación de innovación más rápida. La naturaleza autofinanciada de la compañía mejora la flexibilidad y la velocidad de toma de decisiones. Además, Deepseek atrae a los mejores talentos, y algunos investigadores ganan más de $ 1.3 millones anuales, principalmente reclutando de las principales universidades chinas.
La cifra inicial de $ 6 millones, Deepseek aclara, solo refleja los costos de GPU previa al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura general. La inversión total de la compañía en desarrollo de IA supera los $ 500 millones. A pesar de esta inversión sustancial, la estructura simplificada de Deepseek permite una implementación de innovación eficiente.
El éxito de Deepseek destaca el potencial competitivo de una compañía de IA independiente bien financiada. Si bien el reclamo del "presupuesto revolucionario" es posiblemente exagerado, los logros de la compañía son innegables, como resultado de una inversión significativa, avances tecnológicos y un equipo fuerte. El contraste es marcado al comparar los costos de capacitación: R1 de Deepseek costó $ 5 millones, mientras que ChatGPT4 costó $ 100 millones, evitando la rentabilidad relativa de Deepseek, incluso con su inversión general sustancial.