DeepSeek Accusato di sfruttare i dati aperti, scatenando preoccupazioni etiche

Openai sospetta che i modelli di AI Deepseek della Cina, significativamente più economici delle controparti occidentali, potrebbero essere stati addestrati utilizzando i dati di Openai. Questa rivelazione, unita al rapido aumento della popolarità di Deepseek, ha scatenato un tuffo azionario per i principali attori dell'IA. Nvidia, un fornitore chiave della GPU per l'IA, ha subito la più grande perdita di un giorno nella storia di Wall Street, perdendo quasi $ 600 miliardi di valore di mercato. Anche altre aziende come Microsoft, Meta, Alphabet e Dell hanno subito cadute significative.

Il modello R1 di DeepSeek, basato sull'apertura open source DeepSeek-V3, vanta costi di allenamento significativamente più bassi (stimati a $ 6 milioni) rispetto ai modelli occidentali. Sebbene questa affermazione sia contestata, ha alimentato le preoccupazioni degli investitori riguardo agli enormi investimenti in AI da parte delle società tecnologiche americane. L'app di Deepseek ha rapidamente scalato i grafici per il download statunitensi, evidenziando ulteriormente la controversia.

Openai e Microsoft stanno studiando se DeepSeek abbia violato i termini di servizio di Openi utilizzando la sua API per "distillare" i dati dai modelli di Openi. Openai riconosce che le aziende cinesi tentano spesso di replicare i modelli di intelligenza artificiale statunitensi, sottolineando i suoi sforzi per proteggere la sua proprietà intellettuale e collaborare con il governo degli Stati Uniti per contrastare tali azioni.

David Sacks, consulente AI del presidente Trump, sostiene l'affermazione secondo cui DeepSeek ha usato la distillazione, una tecnica che estrae i dati da modelli più grandi. Prevede ulteriori misure delle principali aziende di intelligenza artificiale per prevenire questa pratica.

La situazione mette in evidenza l'ironia delle accuse di Openi, data la propria storia di utilizzo di materiale protetto da copyright per addestrare il chatgpt. Openai in precedenza aveva sostenuto che la creazione di modelli di intelligenza artificiale come Chatgpt senza materiale protetto da copyright è impossibile, una posizione supportata dalla loro sottomissione alla House of Lords del Regno Unito. Questa posizione è ulteriormente complicata dalle azioni legali del New York Times e di 17 autori che sostengono violazione del copyright. Il panorama legale che circonda i dati di addestramento dell'IA rimane altamente controverso, in particolare alla luce di una sentenza dell'ufficio del copyright degli Stati Uniti del 2018 che l'arte generata dall'IA non è protetta da copyright.

DeepSeek è accusato di usare il modello di Openi per addestrare il proprio concorrente usando la distillazione. Credito immagine: Andrey Rudakov/Bloomberg tramite Getty Images.