Deepseek acusado de alavancar dados do OpenAi, provocando preocupações éticas

Openai suspeita que os modelos Deepseek AI da China, significativamente mais baratos que os colegas ocidentais, podem ter sido treinados usando os dados do OpenAI. Essa revelação, juntamente com o rápido aumento da popularidade da Deepseek, desencadeou uma queda no mercado de ações para os principais players de IA. A NVIDIA, uma provedora de GPU importante para a IA, sofreu a maior perda de um dia na história de Wall Street, perdendo quase US $ 600 bilhões em valor de mercado. Outras empresas como Microsoft, Meta, Alphabet e Dell também experimentaram quedas significativas.

O modelo R1 da Deepseek, baseado no Deepseek-V3 de código aberto, possui custos de treinamento significativamente mais baixos (estimados em US $ 6 milhões) em comparação com os modelos ocidentais. Embora essa reivindicação seja contestada, alimentou as preocupações dos investidores sobre os enormes investimentos em IA por empresas de tecnologia americanas. O aplicativo de Deepseek subiu rapidamente nas paradas de download dos EUA, destacando ainda mais a controvérsia.

O OpenAI e a Microsoft estão investigando se a Deepseek violou os Termos de Serviço da OpenAI usando sua API para "destilar" dados dos modelos do OpenAI. O OpenAI reconhece que as empresas chinesas freqüentemente tentam replicar os modelos de IA nos liderando, enfatizando seus esforços para proteger sua propriedade intelectual e colaborar com o governo dos EUA para combater essas ações.

David Sacks, consultor de IA do presidente Trump, apóia a alegação de que a Deepseek usou a destilação, uma técnica que extrai dados de modelos maiores. Ele antecipa medidas adicionais de liderar as empresas de IA para impedir essa prática.

A situação destaca a ironia das acusações do Openai, dada sua própria história de usar material protegido por direitos autorais para treinar o chatgpt. O Openai argumentou anteriormente que a criação de modelos de IA como ChatGPT sem material protegido por direitos autorais é impossível, uma posição apoiada por sua submissão à Casa dos Lordes do Reino Unido. Esta posição é ainda mais complicada por ações judiciais do New York Times e 17 autores, alegando violação de direitos autorais. O cenário legal em torno dos dados de treinamento da IA permanece altamente controverso, principalmente à luz de um escritório de direitos autorais dos EUA em 2018, que decidiu que a arte gerada pela IA não é por direitos autorais.

Deepseek é acusado de usar o modelo do OpenAI para treinar seu concorrente usando a destilação. Crédito da imagem: Andrey Rudakov/Bloomberg via Getty Images.