Krahasimi i detajuar i modeleve

DeepSeek V3 Model kryesor për qëllime të përgjithshme
I lëshuar në janar 2026, DeepSeek V3 përfaqëson teknologjinë më të fundit të kompanisë. I ndërtuar mbi një arkitekturë mixture-of-experts me 671 miliardë parametra totalë dhe 37 miliardë aktivë për token, modeli arrin 87.1% në benchmark-un MMLU dhe 71.5% në vlerësimet e kodimit HumanEval. Data e kufirit të të dhënave të trajnimit është nëntori 2025, duke e bërë atë një nga modelet gjuhësore më aktuale të disponueshme. Detajet e arkitekturës zbulojnë 64 shtresa ekspertësh me rrugëzim top-8, duke kontribuar në efikasitetin e inference pavarësisht numrit masiv të parametrave.
Metrikat e performancës e vendosin V3 në mënyrë konkurruese kundrejt GPT-4o dhe Claude 3.5 Sonnet. Në benchmark-un MATH për zgjidhjen e problemeve matematike, ai shënon 78.9%, pak pas 83.2% të GPT-4o por përpara 76.4% të Claude 3.5. Për aftësitë shumëgjuhëshe, modeli mbështet 29 gjuhë me kompetencë të nivelit nativ në kinezisht dhe anglisht. Trajtimi i kontekstit shtrihet në dritaren e plotë prej 128K token pa degradim të ndjeshëm të cilësisë, gjë e vërtetuar përmes RULER benchmark me një saktësi rikthimi prej 96.2%.
- Arkitektura mixture-of-experts ul kostot e inference duke ruajtur cilësinë.
- Thirrja e funksioneve native me regjimin JSON për outpute të strukturuara.
- Përgjigje streaming me dërgim token pas tokeni.
- Kontroll i temperaturës nga 0.0 deri në 2.0 për rregullimin e kreativitetit.
- Mbështetje për system prompt për personalizimin e roleve.
Rastet ideale të përdorimit përfshijnë chatbot-et e shërbimit ndaj klientit që kërkojnë mbështetje shumëgjuhëshe, rrjedhat e gjenerimit të përmbajtjes që procesojnë dokumente të gjata, dhe aplikacionet kërkimore. Modeli shkëlqen në ruajtjen e koherencës gjatë bisedave të zgjatura, me një mesatare prej 18 kthesash përpara se degradimi i kontekstit të bëhet i vërejtshëm. Çmimi prej $0.27 për milion token hyrës dhe $1.10 për milion token dalës e bën atë ekonomikisht të qëndrueshëm për ngarkesa pune në prodhim.
DeepSeek-R1 Model i specializuar për arsyetim
DeepSeek-R1, i nisur në dhjetor 2025, fokusohet specifikisht në detyrat komplekse të arsyetimit që kërkojnë konkluzion logjik me shumë hapa. Arkitektura përfshin chain-of-thought në mënyrë native, duke ekspozuar hapat e ndërmjetëm të arsyetimit në përgjigjet e API. Kjo transparencë u lejon zhvilluesve të verifikojnë shtigjet logjike dhe të diagnostikojnë dështimet e arsyetimit. Performanca në MATH benchmark arrin 81.6%, duke tejkaluar V3 me 2.7 pikë përqindjeje, ndërsa rezultatet në GPQA arrijnë 68.4%.
Metodologjia e trajnimit për R1 përfshiu reinforcement learning nga feedback-u njerëzor specifikisht për aftësitë e arsyetimit. Rezultati është një model që tregon punën e bërë në vend që të kalojë direkt te përfundimet. Për vërtetimet matematike, analizat shkencore dhe aplikacionet e arsyetimit ligjor, kjo karakteristikë është e paçmueshme. Numri i parametrave përputhet me V3 në 671B me rrugëzim mixture-of-experts, por përzgjedhja e ekspertëve prioritizon shtigjet me peshë logjike.
- Arsyetim i qartë chain-of-thought në përgjigje.
- Performancë superiore në benchmark-et matematike dhe shkencore.
- Outpute të favorshme për verifikim në vendimmarrje me rrezik të lartë.
- Gjurmë të zgjatura arsyetimi për probleme komplekse me shumë hapa.
Modeli kushton $0.55 për milion token hyrës dhe $2.19 për milion token dalës, afërsisht sa dyfishi i çmimit të V3. Ky premium pasqyron trajnimin e specializuar dhe sekuencat zakonisht më të gjata të daljes që përmbajnë hapa të detajuar arsyetimi. Organizatat që merren me analiza financiare, sisteme mbështetëse për diagnozat mjekësore dhe llogaritje inxhinierike e shohin transparencën si një vlerë që meriton koston shtesë.
DeepSeek Coder V2 Specialist për zhvillimin e softuerit
DeepSeek Coder V2 synon proceset e zhvillimit të softuerit me të dhëna trajnimi të fokusuara rëndshëm në kod, dokumentacion teknik dhe specifika të gjuhëve të programimit. I lëshuar në qershor 2025 me 236 miliardë parametra, ai mbështet mbi 100 gjuhë programimi me forcë të veçantë në Python, JavaScript, TypeScript, Java, C++ dhe Go. Rezultatet në HumanEval arrijnë 84.2% për gjenerimin e kodit Python, ndërsa mesatarja në MultiPL-E është 72.8% në të gjitha gjuhët e mbështetura.
Modeli kupton kontekstin e kodit përmes dritares së tij prej 128K token, duke mundësuar analizën e gjithë bazës së kodit në një prompt të vetëm. Karakteristika fill-in-the-middle mbështet integrimet në IDE për plotësimin e kodit në kohë reale. Inferred signature për funksionet, gjenerimi i dokumentacionit dhe krijimi i unit test-eve përfaqësojnë kompetencat bërthamë. Asistenca në debugging përfshin identifikimin e gabimeve logjike, kërkesat e sigurisë dhe pengesat e performancës përmes analizës statike të kodit.
Me $0.14 për milion token hyrës dhe $0.28 per milion token dalës, Coder V2 renditet si opsioni më kosto-efektiv në linjën e krahasimit. Ekipet e zhvillimit raportojnë përmirësime të produktivitetit prej 30-40% kur integrojnë modelin në proceset e tyre të punës. Numri më i vogël i parametrave në krahasim me V3 përkthehet në latencë më të shpejtë të inference, duke arritur mesatarisht 45 token për sekondë kundrejt 38 për modelin kryesor.
| Benchmark |
DeepSeek V3 |
DeepSeek-R1 |
DeepSeek Coder V2 |
GPT-4o |
Claude 3.5 Sonnet |
| MMLU |
87.1% |
86.8% |
79.4% |
88.7% |
88.3% |
| HumanEval |
71.5% |
69.2% |
84.2% |
90.2% |
73.0% |
| MATH |
78.9% |
81.6% |
62.3% |
83.2% |
76.4% |
| GPQA |
64.2% |
68.4% |
51.7% |
69.1% |
67.3% |
| BBH |
82.6% |
84.1% |
76.8% |
86.4% |
84.9% |