モデルの詳細比較

DeepSeek V3 Flagship general purpose model
2026年1月にリリースされたDeepSeek V3は、同社の現在の最先端モデルです。総パラメーター数6710億、トークンごとのアクティブパラメーター数370億の混合エキスパート(MoE)アーキテクチャを採用しており、MMLUベンチマークで87.1%、HumanEvalコーディング評価で71.5%を記録しています。学習データのカットオフは2025年11月であり、現在利用可能な大規模モデルの中で最も新しい情報を含んでいます。64のエキスパート層とTop-8ルーティングにより、膨大なパラメーター数にもかかわらず、推論の効率化に成功しています。
パフォーマンス面では、V3はGPT-4oやClaude 3.5 Sonnetと互角に渡り合います。数学の問題解決を測るMATHベンチマークでは78.9%をスコアし、GPT-4oの83.2%には及ばないものの、Claude 3.5の76.4%を上回っています。多言語能力については29言語をサポートし、日本語、中国語、英語でネイティブレベルの熟達度を示します。128Kのコンテキストウィンドウ全体で品質低下が少なく、RULERベンチマークでは96.2%の検索精度を証明しました。
- 混合エキスパートアーキテクチャによる品質維持と推論コストの削減。
- 構造化出力のためのJSONモードを備えたネイティブな関数呼び出し。
- トークンごとに回答を配信するストリーミングレスポンス。
- 0.0から2.0までの範囲で調整可能な創造性を制御する温度設定。
- 役割のカスタマイズを可能にするシステムプロンプトのサポート。
主なユースケースには、多言語対応が必要なカスタマーサービスチャットボット、長文ドキュメントを処理するコンテンツ生成パイプライン、正確な情報統合が求められるリサーチ業務などが含まれます。このモデルは長時間の対話でも一貫性を保つことに優れており、テストではコンテキストの劣化が目立つまでに平均18回のやり取りが可能でした。価格は入力100万トークンあたり0.27ドル、出力100万トークンあたり1.10ドルであり、月間数百万のリクエストを処理する商用環境において非常に経済的です。
DeepSeek-R1 Specialized reasoning model
2025年12月に発表されたDeepSeek-R1は、多段階の論理的推論を必要とする複雑なタスクに特化しています。このアーキテクチャは思考の連鎖(Chain-of-Thought)プロンプティングをネイティブに組み込んでおり、APIレスポンス内で中間推論ステップを確認できます。この透明性により、開発者は論理プロセスを検証し、推論の失敗をデバッグすることが可能です。MATHベンチマークでは81.6%に達し、V3を2.7ポイント上回る一方、大学院レベルの科学問題(GPQA)では68.4%を記録しました。
R1の学習手法には、V3に適用された広範なRLHFとは異なり、特に推論能力をターゲットにした人間フィードバックによる強化学習が採用されています。その結果、結論を導き出すだけでなく、思考プロセスを明示的に示すモデルとなりました。数学的証明、科学的分析、法務上の推論などのアプリケーションにおいて、この特性は極めて価値が高いものです。パラメーター数はV3と同じ671B의 MoE構成ですが、エキスパートの選択が論理重視のパスを優先するように設計されています。
- 回答プロセスにおける明示的な思考の連鎖を表示。
- 数学および科学ベンチマークにおける優れたパフォーマンス。
- 高度な意思決定に適した検証可能な出力形式。
- 複雑な多段階問題に対応する拡張された推論トレース。
このモデルのコストは、入力100万トークンあたり0.55ドル、出力100万トークンあたり2.19ドルで、V3の約2倍です。このプレミアム価格は特化した学習コストと、詳細な推論ステップを含む長い出力シーケンスを反映しています。財務分析、医療診断支援システム、エンジニアリング計算を扱う組織にとって、この透明性は追加費用に見合う価値を提供します。
DeepSeek Coder V2 Software development specialist
DeepSeek Coder V2は、コードリポジトリ、技術文書、プログラミング言語の仕様を重視した学習データにより、ソフトウェア開発ワークフローをターゲットにしています。2025年6月に2360億パラメーターでリリースされ、Python、JavaScript、TypeScript、Java、C++、Goなどを含む100以上のプログラミング言語をサポートしています。HumanEvalのPythonコード生成では84.2%に達し、MultiPL-Eベンチマークでは全サポート言語で平均72.8%を記録しました。
128Kのトークンウィンドウによりリポジトリ全体のコンテキストを理解し、一度のプロンプトでコードベース全体の分析が可能です。Fill-in-the-middle機能は、IDE拡張機能によるリアルタイムেরコード補完をサポートします。関数シグネチャの推論、ドキュメント生成、ユニットテストの作成がコアコンピテンシーです。デバッグ支援では、提供されたコードの静的分析を通じて、論理エラー、セキュリティの脆弱性、パフォーマンスのボトルネックを特定します。
入力100万トークンあたり0.14ドル、出力100万トークンあたり0.28ドルという価格設定により、Coder V2はラインナップの中で最もコスト効率の高い選択肢となっています。開発チームからは、IDE拡張機能やgitコミットフックを通じてこのモデルを導入することで、生産性が30〜40%向上したという報告があります。V3に比べてパラメーター数が少ないため、推論レイテンシが低く、フラッグシップモデルの毎秒38トークンに対し、毎秒平均45トークンの高速な処理を実現しています。
| ベンチマーク |
DeepSeek V3 |
DeepSeek-R1 |
DeepSeek Coder V2 |
GPT-4o |
Claude 3.5 Sonnet |
| MMLU |
87.1% |
86.8% |
79.4% |
88.7% |
88.3% |
| HumanEval |
71.5% |
69.2% |
84.2% |
90.2% |
73.0% |
| MATH |
78.9% |
81.6% |
62.3% |
83.2% |
76.4% |
| GPQA |
64.2% |
68.4% |
51.7% |
69.1% |
67.3% |
| BBH |
82.6% |
84.1% |
76.8% |
86.4% |
84.9% |