Išsamus modelių palyginimas

DeepSeek V3 yra pavyzdinis modelis
DeepSeek V3, išleistas 2026 m. sausį, reprezentuoja dabartinį technologinį bendrovės zenitą. Modelis sukurtas naudojant mixture-of-experts (MoE) architektūrą su 671 milijardu parametrų, iš kurių 37 milijardai aktyvuojami vienam žetonui, o MMLU teste pasiekiamas 87,1 % rezultatas. Mokymo duomenys apima informaciją iki 2025 m. lapkričio, todėl tai yra vienas aktualiausių didžiųjų kalbos modelių rinkoje. Architektūriniai sprendimai apima 64 ekspertų sluoksnius su top-8 maršrutizavimu, užtikrinančiu efektyvią išvadų (inference) generaciją.
Našumo metrikos rodo, kad V3 užtikrintai konkuruoja su GPT-4o ir Claude 3.5 Sonnet. MATH testų metu modelis pasiekė 78,9 % rezultatą, nedaug atsilikdamas nuo GPT-4o (83,2 %), bet lenkdamas Claude 3.5 (76,4 %). Daugiakalbiškumo srityje modelis palaiko 29 kalbas ir pasižymi gimtosios kalbos lygio žiniomis anglų bei kinų kalbomis. Konteksto apdorojimas išlieka stabilus visame 128K diapazone, o tai patvirtina RULER testas su 96,2 % informacijos atkūrimo tikslumu.
- Mixture-of-experts architektūra optimizuoja išlaidas išlaikant aukštą kokybę.
- Integruotas funkcijų iškvietimas (function calling) su JSON režimu struktūrizuotiems duomenims.
- Srautinis atsakymų perdavimas (streaming) realiuoju laiku.
- Temperatūros valdymas nuo 0.0 iki 2.0 kūrybiškumo reguliavimui.
- Sisteminio nurodymo (system prompt) palaikymas specifinių rolių nustatymui.
Šis modelis puikiai tinka daugiakalbiams klientų aptarnavimo pokalbių robotams, ilgų dokumentų turinio kūrimo sistemoms bei moksliniams tyrimams. Testai rodo, kad modelis išlaiko nuoseklumą vidutiniškai 18 pokalbio ratų, kol pastebimas konteksto kokybės mažėjimas. Šiuo metu 2026 metais kaina siekia 0,27 $ už milijoną įvesties žetonų, todėl jis yra ekonomiškai patrauklus didelės apimties verslo procesams.
DeepSeek-R1 loginio mąstymo modelis
DeepSeek-R1, debiutavęs 2025 m. gruodį, yra specializuotas spręsti užduotis, reikalaujančias kelių žingsnių loginės analizės. Jo architektūra natyviai palaiko chain-of-thought metodiką, leidžiančią API atsakymuose matyti tarpinius mąstymo žingsnius. Toks skaidrumas padeda programuotojams suprasti modelio priimamus sprendimus ir lengviau šalinti logines klaidas. MATH teste modelis pasiekia 81,6 % tikslumą, o GPQA (aukštojo mokslo lygio mokslo klausimai) rezultatas siekia 68,4 %.
R1 mokymo metodika rėmėsi sustiprintu mokymu iš žmogaus grižtamojo ryšio (RLHF), orientuojantis į mąstymo galimybes, o ne tik bendrą teksto generavimą. Rezultatas yra sistema, kuri aiškiai parodo savo „darbo eigą“, o ne pateikia galutinį atsakymą iš karto. Tai kritiškai svarbu atliekant matematinius įrodymus, mokslinę analizę ar teisinio mąstymo reikalaujančias užduotis. Nors parametrų skaičius sutampa su V3, ekspertų pasirinkimas optimizuotas logiškai sunkiems skaičiavimams.
- Aiški mąstymo grandinės vizualizacija atsakymuose.
- Aukščiausios klasės rezultatai matematinio mąstymo testuose.
- Skaidrūs ir lengvai tikrinami rezultatai svarbiems sprendimams priimti.
- Prailginti mąstymo pėdsakai sudėtingoms problemoms spręsti.
Modelio eksploatacija kainuoja maždaug dvigubai daugiau nei V3 modeliui, siekiant 0,55 $ už milijoną įvesties žetonų. Padidinta kaina atspindi specializuotą mokymą ir ilgesnes atsakymų sekas, kuriose pateikiami detalūs mąstymo etapai. Organizacijos, užsiimančios finansine analize ar medicinine diagnostika, šį kainos skirtumą vertina kaip pagrįstą investiciją į gaunamų duomenų skaidrumą.
DeepSeek Coder V2 programavimo specialistas
DeepSeek Coder V2 yra orientuotas į programinės įrangos kūrimą, o jo mokymo duomenų bazę sudaro kodo saugyklos, techninė dokumentacija ir programavimo kalbų specifikacijos. 2025 m. birželį pasirodęs modelis su 236 milijardais parametrų palaiko daugiau nei 100 kalbų, ypač stipriai dirbdamas su Python, JavaScript, TypeScript, Java ir C++. HumanEval teste modelis pasiekia 84,2 % Python kodo generavimo tikslumą.
Dėl 128K žetonų lango modelis sugeba suvokti visos kodo saugyklos (repository) kontekstą vienu metu. Fill-in-the-middle funkcija leidžia jį integruoti į IDE aplinkas realaus laiko kodo pabaigimui. Pagrindinės kompetencijos apima funkcijų parašų išvedimą, dokumentacijos kūrimą ir vienetų testų (unit tests) generavimą. Derinimo pagalba apima loginių klaidų, saugumo spragų ir našumo butelio kakliukų identifikavimą.
Kaina siekia vos 0,14 $ už milijoną įvesties žetonų, todėl Coder V2 yra ekonomiškiausias pasirinkimas visoje gamoje. Kūrėjų komandos pastebi, kad produktyvumas padidėja 30–40 %, kai modelis integruojamas į kasdienius procesus per IDE plėtinius. Mažesnis parametrų skaičius lyginant su V3 užtikrina mažesnę delsą (latency), generuojant vidutiniškai 45 žetonus per sekundę.
| Testas |
DeepSeek V3 |
DeepSeek-R1 |
DeepSeek Coder V2 |
GPT-4o |
Claude 3.5 Sonnet |
| MMLU |
87,1% |
86,8% |
79,4% |
88,7% |
88,3% |
| HumanEval |
71,5% |
69,2% |
84,2% |
90,2% |
73,0% |
| MATH |
78,9% |
81,6% |
62,3% |
83,2% |
76,4% |
| GPQA |
64,2% |
68,4% |
51,7% |
69,1% |
67,3% |
| BBH |
82,6% |
84,1% |
76,8% |
86,4% |
84,9% |