Deepseek acusado de aprovechar los datos de Operai, provocando preocupaciones éticas

Operai sospecha que los modelos de IA profundos de China, significativamente más baratos que las homólogos occidentales, pueden haber sido entrenados utilizando los datos de OpenAI. Esta revelación, junto con el rápido aumento de la popularidad de Deepseek, provocó una caída del mercado de valores para los principales jugadores de IA. NVIDIA, un proveedor clave de GPU para AI, sufrió la mayor pérdida de un solo día en la historia de Wall Street, perdiendo casi $ 600 mil millones en valor de mercado. Otras compañías como Microsoft, Meta, Alphabet y Dell también experimentaron gotas significativas.

El modelo R1 de Deepseek, basado en el de código abierto Deepseek-V3, cuenta con costos de capacitación significativamente más bajos (estimados en $ 6 millones) en comparación con los modelos occidentales. Si bien este reclamo es disputado, impulsó las preocupaciones de los inversores sobre las inversiones masivas en IA por parte de las compañías tecnológicas estadounidenses. La aplicación de Deepseek subió rápidamente en las listas de descarga de EE. UU., Destacando aún más la controversia.

Operai y Microsoft están investigando si Deepseek violó los términos de servicio de OpenAi mediante el uso de su API para "destilar" los datos de los modelos de OpenAI. Openai reconoce que las empresas chinas con frecuencia intentan replicar los modelos de IA de EE. UU. Liderando, enfatizando sus esfuerzos para proteger su propiedad intelectual y colaborar con el gobierno de los Estados Unidos para contrarrestar tales acciones.

David Sacks, asesor de IA del presidente Trump, apoya la afirmación de que Deepseek usó la destilación, una técnica que extrae datos de modelos más grandes. Anticipa más medidas de liderar a las compañías de IA para evitar esta práctica.

La situación destaca la ironía de las acusaciones de OpenAi, dada su propia historia de usar material con derechos de autor para entrenar a ChatGPT. Operai argumentó previamente que crear modelos de IA como ChatGPT sin material con derechos de autor es imposible, una postura respaldada por su sumisión a la Casa de Lores del Reino Unido. Esta posición se complica aún más por las demandas del New York Times y 17 autores que alegan infracción de derechos de autor. El paisaje legal que rodea los datos de capacitación de IA sigue siendo muy polémico, particularmente a la luz de una decisión de la Oficina de Derechos de Autor de los EE. UU. 2018 de que el arte generado por la IA no es con derechos de autor.

Deepseek está acusado de usar el modelo de OpenAI para capacitar a su competidor utilizando la destilación. Crédito de la imagen: Andrey Rudakov/Bloomberg a través de Getty Images.