Nowy chatbot Deepseek ma imponujące wprowadzenie: „Cześć, zostałem stworzony, abyś mógł zapytać wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć”. Ta sztuczna inteligencja, produkt chińskiego startupu Deepseek, szybko stał się głównym graczem rynkowym, nawet przyczyniając się do znacznego spadku ceny akcji NVIDIA. Jego sukces wynika z unikalnej metodologii architektury i szkoleń, obejmujących kilka innowacyjnych technologii.
Prognozowanie wielu tokenów (MTP): W przeciwieństwie do tradycyjnej prognozy słowa, MTP prognozuje wiele słów jednocześnie, analizując różne części zdań w celu zwiększenia dokładności i wydajności.
Mieszanka ekspertów (MOE): Architektura ta wykorzystuje wiele sieci neuronowych do przetwarzania danych wejściowych, przyspieszając szkolenie AI i poprawę wydajności. Deepseek V3 zatrudnia 256 sieci neuronowych, aktywując osiem dla każdego zadania przetwarzania tokenu.
Utrzymująca uwaga wielowłócona (MLA): MLA koncentruje się na kluczowych elementach zdań, wielokrotnie wydobywając kluczowe szczegóły z fragmentów tekstu, aby zminimalizować utratę informacji i przechwytywać subtelne niuanse.
Deepseek początkowo stwierdził niezwykle niski koszt szkolenia w wysokości 6 milionów dolarów dla swojego potężnego modelu Deepseek V3, wykorzystując tylko 2048 GPU. Jednak semianaliza ujawniła znacznie bardziej znaczącą infrastrukturę: około 50 000 GPU Nvidia Hopper (w tym 10 000 H800, 10 000 H100 i dodatkowych GPU H20) rozmieszczonych w wielu centrach danych. Przekłada się to na inwestycję serwerową w wysokości około 1,6 miliarda USD, a wydatki operacyjne szacowane na 944 mln USD.
Deepseek, spółka zależna chińskiego funduszu hedgingowego High-Flyer, jest właścicielem swoich centrów danych, w przeciwieństwie do wielu startupów, które opierają się na usługach w chmurze. Zapewnia to większą kontrolę nad optymalizacją i szybszą wdrażaniem innowacji. Samofinansowany charakter firmy zwiększa elastyczność i szybkość podejmowania decyzji. Ponadto Deepseek przyciąga najlepsze talenty, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie, przede wszystkim rekrutujące się z wiodących chińskich uniwersytetów.
Pierwsza liczba 6 milionów dolarów, Deepseek, wyjaśnia, odzwierciedla jedynie koszty GPU przed treningiem, wykluczając badania, udoskonalanie, przetwarzanie danych i ogólną infrastrukturę. Całkowita inwestycja firmy w rozwój AI przekracza 500 milionów dolarów. Pomimo tej znacznej inwestycji usprawniona struktura Deepseeka pozwala na skuteczne wdrożenie innowacji.
Sukces Deepseek podkreśla potencjał konkurencyjny dobrze finansowanej niezależnej firmy AI. Podczas gdy roszczenie „rewolucyjne budżet” jest prawdopodobnie przesadzone, osiągnięcia firmy są niezaprzeczalne, wynikające z znacznych inwestycji, przełomów technologicznych i silnego zespołu. Kontrast jest wyraźny przy porównywaniu kosztów szkolenia: R1 Deepseek kosztował 5 milionów dolarów, podczas gdy Chatgpt4 kosztuje zgłoszone 100 milionów dolarów-powodując względną opłacalność Deepeek, nawet ze znaczną ogólną inwestycją.