Comparáid mhionsonraithe idir múnlaí

DeepSeek V3 an múnla suaitheanta
Is é DeepSeek V3 an tairiscint is nua-aimseartha ón gcomhlacht faoi láthair. Tá sé tógail ar ailtireacht mixture-of-experts le 671 billiún paraiméadar san iomlán agus 37 billiún paraiméadar gníomhach in aghaidh an token. Sroicheann an múnla 87.1% ar thagarmharc MMLU agus 71.5% ar thástálacha códaithe HumanEval. Stadadh de shonraí traenála a bhailiú i mí na Samhna 2025, rud a fhágann go bhfuil sé ar cheann de na múnlaí is úire atá ar fáil. Tá 64 sraith saineolaithe san ailtireacht le ródú top-8, rud a chabhraíonn le héifeachtacht inference in ainneoin an líon mór paraiméadar.
Cuireann méadracht feidhmíochta V3 in iomaíocht láidir é le GPT-4o agus Claude 3.5 Sonnet. Ar thagarmharc MATH le haghaidh réiteach fadhbanna matamaitice, scórálann sé 78.9%, beagán taobh thiar de 83.2% GPT-4o ach chun tosaigh ar 76.4% Claude 3.5. Maidir le cumais ilteangacha, tacaíonn an múnla le 29 teanga le hinniúlacht dúchais sa tSínis agus sa Bhéarla. Láimhseálann sé an t-uasmhéid den fhuinneog chomhthéacs 128K gan laghdú suntasach ar cháilíocht, rud atá deimhnithe ag cruinneas aisghabhála 96.2% ar thagarmharc RULER.
- Laghdaíonn ailtireacht mixture-of-experts costais inference agus cáilíocht á choinneáil ag an am céanna.
- Tacaíonn sé le feidhmghlaoch dúchais le mód JSON le haghaidh aschur struchtúrtha.
- Soláthraíonn sé freagraí sruthaithe le seachadadh token ar thoken.
- Cabhraíonn rialú teochta ó 0.0 go 2.0 le coigeartú cruthaitheachta an mhúnla.
- Tacaíonn sé le rómhalartú trí phreamaí córais le haghaidh saincheaptha ról.
I measc na gcásanna úsáide idéalacha tá chatbots seirbhíse custaiméara a dteastaíonn tacaíocht ilteangach uathu. Tá sé oiriúnach freisin do phíblínte giniúna ábhair a phróiseálann doiciméid fhada agus d'fheidhmchláir taighde a dteastaíonn sintéis faisnéise uathu. Éiríonn go maith delights an múnla comhleanúnachas a choinneáil thar chomhráite fada, le meán de 18 seal sula n-éiríonn an meath ar an gcomhthéacs le feiceáil le linn tástála. Is é an praghas ná $0.27 in aghaidh an mhilliúin token ionchuir agus $1.10 in aghaidh an mhilliúin token aschuir faoi láthair i 2026.
DeepSeek-R1 le haghaidh réasúnaíochta
Díríonn DeepSeek-R1 ar thascanna casta réasúnaíochta a dteastaíonn tátal loighciúil ilchéime uathu. In ailtireacht an mhúnla seo, tá spreagadh chain-of-thought in úsáid go dúchasach, rud a thaispeánann céimeanna réasúnaíochta idirmheánacha i bhfreagraí API. Ligeann an trédhearcacht seo d'fhorbróirí bealaí loighce a fhíorú agus teipeanna réasúnaíochta a dhífhabhtú. Sroicheann feidhmíocht ar thagarmharc MATH 81.6%, ag sárú V3 faoi 2.7 pointe céatadáin, agus sroicheann scóir GPQA 68.4% le haghaidh ceisteanna eolaíochta ar leibhéal iarchéime.
Bhain modheolaíocht traenála R1 úsáid as foghlaim threisithe ó aiseolas daonna (RLHF) a dhírigh go sonrach ar chumais réasúnaíochta. Is é an toradh ná múnla a thaispeánann a chuid oibre go soiléir in ionad léim go díreach chuig conclúidí. Maidir le cruthúnais mhatamaitice, anailís eolaíoch, agus feidhmchláir réasúnaíochta dlíthiúla, tá the tréith seo thar a bheith luachmhar. Tá líon na bparaiméadar mar an gcéanna le V3 ag 671B, ach tugann ródú na saineolaithe tosaíocht do bhealaí atá trom ar loighic.
- Taispeánann an múnla réasúnaíocht chain-of-thought shoiléir i ngach freagra.
- Sáraíonn an múnla seo cinn eile ar thagarmharcanna matamaitice agus eolaíochta.
- Soláthraíonn sé aschuir atá éasca le fíorú le haghaidh cinntí ardriosca.
- Cabhraíonn lorg réasúnaíochta fada le réiteach fadhbanna ilchéime casta.
Cosnaíonn an múnla $0.55 in aghaidh an mhilliúin token ionchuir agus $2.19 in aghaidh an mhilliúin token aschuir. Léiríonn an phréimh seo an traenáil speisialaithe agus na seichaimh aschuir is faide de ghnáth ina bhfuil céimeanna mionsonraithe. Baineann eagraíochtaí a láimhseálann anailís airgeadais agus córais tacaíochta diagnóis leighis tairbhe as an trédhearcacht seo.
DeepSeek Coder V2 do ríomhchláraitheoirí
Díríonn DeepSeek Coder V2 ar shreafaí oibre forbartha bogearraí le sonraí traenála atá dírithe ar stórtha cóid agus doiciméadú teicniúil. Tacaíonn sé le níos mó ná 100 teanga ríomhchlárúcháin, go háirithe Python, JavaScript, TypeScript, Java, C++, agus Go. Sroicheann scóir HumanEval 84.2% le haghaidh giniúint cóid Python, agus tá meán de 72.8% ag tagarmharc MultiPL-E trasna na dteangacha go léir a dtacaítear leo.
Tuigeann an múnla comhthéacs stórais trína fhuinneog chomhthéacs 128K, rud a ligeann do anailís a dhéanamh ar bhunachair cóid iomlána in aon phreama amháin. Tacaíonn cumas fill-in-the-middle le comhtháthú IDE le haghaidh críochnú cóid i bhfíor-am. I measc na bpríomhinniúlachtaí tá tátal sínithe feidhme, giniúint doiciméadúcháin, agus cruthú tástálacha aonaid. Áirítear le cúnamh dífhabhtaithe earráidí loighce agus leochaileachtaí slándála a aithint trí anailís statach ar an gcód a sholáthraítear.
Is é Coder V2 an rogha is éifeachtaí ó thaobh costais de sa líne seo. Tuairiscíonn foirne forbartha feabhsuithe táirgiúlachta de 30-40% nuair a chomhtháthaítear an múnla seo ina gcuid sreafaí oibre. Mar gheall ar an líon níos lú paraiméadar i gcomparáid le V3, tá latency inference níos tapúla aige, le meán de 45 token in aghaidh an tsoicind i gcomparáid le 38 don mhúnla suaitheanta.
| Benchmark | DeepSeek V3 | DeepSeek-R1 | DeepSeek Coder V2 | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|---|---|
| MMLU | 87.1% | 86.8% | 79.4% | 88.7% | 88.3% |
| HumanEval | 71.5% | 69.2% | 84.2% | 90.2% | 73.0% |
| MATH | 78.9% | 81.6% | 62.3% | 83.2% | 76.4% |
| GPQA | 64.2% | 68.4% | 51.7% | 69.1% | 67.3% |
| BBH | 82.6% | 84.1% | 76.8% | 86.4% | 84.9% |



