DeepSeek API + Full Integration Guide

Hướng dẫn tích hợp và bảng giá DeepSeek API chi tiết nhất để tối ưu hóa hiệu suất AI của bạn.

Tổng quan Bắt đầu Giá API Mô hình Trường hợp sử dụng FAQ

Tổng quan về DeepSeek API

API của DeepSeek cung cấp quyền truy cập theo lập trình vào bộ mô hình ngôn ngữ lớn thông qua giao diện REST, được thiết kế cho các nhà phát triển và doanh nghiệp đang tìm kiếm giải pháp tích hợp AI tiết kiệm chi phí. API này hỗ trợ nhiều biến thể mô hình được tối ưu hóa cho các khối lượng công việc khác nhau, từ AI hội thoại đến tạo mã nguồn và embeddings. Dịch vụ duy trì các endpoint tương thích với OpenAI, cho phép các lập trình viên chuyển đổi nhà cung cấp với những thay đổi mã nguồn tối thiểu.

Việc truy cập API yêu cầu xác thực thông qua bearer token được tạo từ bảng điều khiển dành cho nhà phát triển. Các SDK chính thức đã sẵn sàng cho Python, Node.js, Go và Java, mặc dù bất kỳ HTTP client nào cũng có thể tương tác với các REST endpoint. Nền tảng này hướng đến các nhà phát triển cá nhân đang xây dựng nguyên mẫu, các startup đang mở rộng tính năng AI và các doanh nghiệp yêu cầu mức giá dự đoán được cho khối lượng inference lớn.

Tính năng	Thông số kỹ thuật
Các mô hình có sẵn	DeepSeek V3, DeepSeek Coder V2, DeepSeek Chat
Giới hạn tốc độ	Gói miễn phí 500K token/ngày, gói trả phí lên đến 50M token/ngày
Phương thức xác thực	Bearer token (API key)
SDK chính thức	Python, Node.js, Go, Java
Ngôn ngữ hỗ trợ	Đa ngôn ngữ (hơn 70 ngôn ngữ, tối ưu hóa cho EN/ZH)

Các khả năng kỹ thuật chính bao gồm phản hồi dạng streaming cho các ứng dụng thời gian thực, function calling để tích hợp công cụ và chế độ JSON cho đầu ra có cấu trúc. API xử lý cửa sổ ngữ cảnh lên đến 128K token trên các mô hình hàng đầu, cho phép phân tích các tài liệu dài mà không cần chia nhỏ. Tất cả các yêu cầu được định tuyến qua các endpoint CDN toàn cầu với độ trễ trung bình dưới 200ms cho hầu hết các khu vực.

Cung cấp REST API với cấu trúc tương thích OpenAI giúp di chuyển dễ dàng.
Hỗ trợ gốc cho chat completions, embeddings và tạo mã nguồn.
Tự động cân bằng tải trên các cụm inference.
Cung cấp phân tích sử dụng chi tiết và theo dõi tiêu thụ token.

Tài liệu API dành cho nhà phát triển bao gồm các ví dụ tương tác và cấu hình webhook để xử lý bất đồng bộ. Việc tích hợp thường mất khoảng 30 phút cho các triển khai cơ bản, with khả năng xử lý lỗi toàn diện và logic thử lại được tích hợp sẵn trong các SDK chính thức.

Bắt đầu với DeepSeek API

Thiết lập quyền truy cập API bắt đầu bằng việc tạo tài khoản nhà phát triển trên nền tảng DeepSeek và tạo API key đầu tiên từ phần thông tin xác thực. Quy trình bắt đầu nhanh bao gồm ba bước cốt lõi: cấu hình xác thực, cài đặt SDK và thực hiện yêu cầu đầu tiên. Hầu hết các nhà phát triển hoàn thành thử nghiệm yêu cầu đầu tiên trong vòng 15 phút bằng cách sử dụng các mẫu mã nguồn được cung cấp.

Xác thực sử dụng định dạng bearer token với các khóa bắt đầu bằng tiền tố "sk-". URL cơ sở cho tất cả các API endpoint là https://api.deepseek.com/v1, tuân theo các quy ước RESTful. Các tiêu đề bắt buộc bao gồm Authorization với API key của bạn và Content-Type được đặt thành application/json. Giới hạn tốc độ được áp dụng cho mỗi khóa thay vì cho mỗi tài khoản, cho phép các nhóm phân bổ hạn ngạch trên nhiều dự án khác nhau.

Để cài đặt Python SDK, hãy sử dụng pip để thêm thư viện máy khách chính thức. Mã nguồn sau đây minh họa quy trình yêu cầu đầu tiên hoàn chỉnh bằng cách sử dụng endpoint chat completion với DeepSeek V3:

pip install deepseek-sdk

from deepseek import DeepSeek

client = DeepSeek(api_key="sk-your-api-key-here")

response = client.chat.completions.create(
    model="deepseek-chat-v3",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum computing in simple terms."}
    ],
    max_tokens=500,
    temperature=0.7
)

print(response.choices[0].message.content)

Đối với các nhà phát triển thích sử dụng curl, lệnh HTTP tương đương yêu cầu cấu hình tiêu đề rõ ràng. Cách tiếp cận này hoạt động tốt để thử nghiệm mà không cần phụ thuộc vào SDK:

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer sk-your-api-key-here" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-chat-v3",
    "messages": [{"role": "user", "content": "Hello, API!"}],
    "max_tokens": 100
  }'

API trả về phản hồi JSON chứa văn bản được tạo, số liệu thống kê sử dụng token và siêu dữ liệu yêu cầu. Các phản hồi thành công bao gồm một mảng choices với đầu ra của mô hình, trong khi các lỗi trả về mã tiêu chuẩn để gỡ lỗi. Số lượng token xuất hiện trong đối tượng usage, theo dõi prompt_tokens, completion_tokens và total_tokens để thanh toán chính xác.

Lấy thiết lập API key từ tab bảo mật trong bảng điều khiển nhà phát triển.
Cài đặt Python SDK hoặc sử dụng yêu cầu HTTP trực tiếp để linh hoạt ngôn ngữ.
Kiểm tra kết nối bằng một chat completion đơn giản trước khi tích hợp sản xuất.
Theo dõi các tiêu đề phản hồi để biết trạng thái giới hạn tốc độ và hạn ngạch còn lại.

Hướng dẫn bắt đầu nhanh API trong tài liệu bao gồm các ngôn ngữ bổ sung như Node.js và Go, với các ví dụ cụ thể cho Express, Flask và FastAPI. Cấu hình webhook để xử lý bất đồng bộ yêu cầu xác minh endpoint trong quá trình thiết lập ban đầu.

Giá API và giới hạn tốc độ

Hiện tại trong năm 2026, chiến lược giá DeepSeek API tuân theo mô hình dựa trên token, tính phí riêng cho token đầu vào và đầu ra, với mức giá thay đổi theo khả năng của mô hình. Mô hình hàng đầu DeepSeek V3 có giá $0.27 cho mỗi 1 triệu token đầu vào và $1.10 cho mỗi 1 triệu token đầu ra, mức giá thấp hơn đáng kể so với các mô hình biên giới tương đương. Các tài khoản mới được cung cấp khoản tín dụng miễn phí tổng trị giá $5, đủ cho khoảng 4.5 triệu token đầu vào hoặc 900 nghìn token đầu ra trên mô hình chat tiêu chuẩn.

Việc tính toán chi phí trên mỗi token làm cho DeepSeek trở nên đặc biệt cạnh tranh cho các ứng dụng khối lượng lớn. Một cuộc trao đổi chatbot điển hình tiêu thụ 500 token đầu vào và 200 token đầu ra có chi phí khoảng $0.00036, cho phép hàng triệu tương tác với ngân sách khiêm tốn. Giới hạn tốc độ tăng dần theo cấp độ tài khoản, bắt đầu từ 500 nghìn token mỗi ngày cho tài khoản miễn phí và mở rộng lên 50 triệu token mỗi ngày cho các gói đăng ký doanh nghiệp.

Mô hình	Đầu vào (mỗi 1M token)	Đầu ra (mỗi 1M token)	Cửa sổ ngữ cảnh	Giới hạn (token/phút)
DeepSeek V3	$0.27	$1.10	128K	90,000
DeepSeek Chat	$0.14	$0.28	64K	150,000
DeepSeek Coder V2	$0.14	$0.28	64K	120,000
DeepSeek Embeddings	$0.002	N/A	8K	200,000

Thanh toán sử dụng hoạt động trên hệ thống tín dụng trả trước with các khoản khấu trừ tự động cho mỗi yêu cầu. Bảng điều khiển hiển thị các số liệu tiêu thụ theo thời gian thực được chia nhỏ theo mô hình và dự án, with các cảnh báo chi tiêu có thể cấu hình để ngăn chặn vượt mức không mong muốn. Tín dụng chưa sử dụng không hết hạn và các mức giảm giá theo khối lượng sẽ tự động áp dụng khi ngưỡng tiêu thụ hàng tháng vượt quá $1,000.

Các giới hạn tốc độ thực thi hạn ngạch dựa trên số lượng token mỗi phút thay vì số lượng yêu cầu thô, cho phép kích thước batch linh hoạt. API trả về mã trạng thái 429 khi vượt quá giới hạn, with tiêu đề Retry-After cho biết thời gian chờ đợi. Các tài khoản doanh nghiệp có thể truy cập các băng thông dành riêng và cấu hình giới hạn tốc độ tùy chỉnh thông qua các kênh hỗ trợ. Giá cả có thể thay đổi with thông báo trước 30 ngày cho người dùng hiện tại, mặc dù dữ liệu lịch sử cho thấy mức giá ổn định kể từ khi ra mắt V3 vào năm 2025.

Các mô hình và endpoint hiện có

Các endpoint của DeepSeek API cung cấp năm mô hình sản xuất, mỗi mô hình được tối ưu hóa cho các khối lượng công việc riêng biệt từ hội thoại tổng quát đến tạo mã chuyên dụng. Việc lựa chọn mô hình được thực hiện thông qua tham số model trong các yêu cầu API, với các ID tuân theo mẫu "deepseek-{capability}-{version}". Các mô hình cũ vẫn có thể truy cập được trong 90 ngày sau khi phiên bản thay thế ra mắt, với các thông báo di chuyển được gửi cho người dùng đang hoạt động.

Model ID	Loại	Cửa sổ ngữ cảnh	Trường hợp sử dụng tốt nhất
deepseek-chat-v3	Chat Completion	128K tokens	AI hội thoại, suy luận tổng quát, đối thoại đa ngôn ngữ
deepseek-coder-v2	Code Completion	64K tokens	Tạo mã, gỡ lỗi, tài liệu kỹ thuật
deepseek-reasoner	Chat Completion	128K tokens	Giải quyết vấn đề phức tạp, suy luận chain-of-thought
deepseek-embed	Embeddings	8K tokens	Tìm kiếm ngữ nghĩa, pipeline RAG, so khớp độ tương đồng
deepseek-vision-preview	Đa phương thức (Beta)	32K tokens + hình ảnh	Phân tích hình ảnh, OCR, trả lời câu hỏi bằng hình ảnh

Endpoint chat completion tại /v1/chat/completions xử lý các tương tác hội thoại với hỗ trợ cho system prompt, đối thoại đa lượt và function calling. Endpoint này hoạt động với cả mô hình deepseek-chat-v3 và deepseek-reasoner, trong đó mô hình sau bổ sung thêm các dấu vết suy luận rõ ràng trong phản hồi. Các tham số temperature và top_p kiểm soát tính ngẫu nhiên của đầu ra, trong khi max_tokens giới hạn độ dài tạo văn bản.

Các mô hình chat hỗ trợ phản hồi streaming qua tham số stream cho trải nghiệm người dùng thời gian thực.
Các mô hình code completion bao gồm tối ưu hóa riêng cho Python, JavaScript, Java, C++ và Go.
Danh sách mô hình embeddings trả về các vector 1024 chiều cho các hoạt động ngữ nghĩa.
Mô hình thị giác (beta) chấp nhận URL hình ảnh hoặc dữ liệu mã hóa base64 cùng với prompt văn bản.

Các mô hình có sẵn trải dài từ 7 tỷ đến 671 tỷ tham số, mặc dù số lượng tham số được trừu tượng hóa đối với người dùng API, những người lựa chọn theo khả năng thay vì quy mô. DeepSeek Coder V2 đặc biệt xuất sắc trên các benchmark HumanEval với độ chính xác pass@1 đạt 88.4%, trong khi phiên bản V3 đạt 87.1% trên MMLU cho các nhiệm vụ kiến thức tổng quát. Tất cả các mô hình sản xuất đều hỗ trợ chế độ JSON cho đầu ra có cấu trúc và function calling để tích hợp công cụ.

Trường hợp sử dụng và ví dụ tích hợp

Các kịch bản tích hợp API thực tế bao gồm chatbot hướng tới khách hàng, pipeline tạo nội dung, công cụ phát triển và quy trình phân tích. Khả năng tương thích OpenAI của API cho phép thay thế trực tiếp vào các tích hợp LLM hiện có, trong khi các tính năng đặc thù của DeepSeek như cửa sổ ngữ cảnh mở rộng cho phép tạo ra các ứng dụng mới. Các triển khai sản xuất thường tận dụng tính năng streaming để có phản hồi nhanh và function calling để truy cập dữ liệu bên ngoài.

Phát triển chatbot đại diện cho mô hình tích hợp phổ biến nhất, với các doanh nghiệp nhúng AI hội thoại vào các nền tảng hỗ trợ, ứng dụng di động và giao diện web. Cửa sổ ngữ cảnh 128K đáp ứng được toàn bộ tài liệu hỗ trợ hoặc lịch sử hội thoại mà không cần cắt bỏ. Function calling cho phép tra cứu dữ liệu thời gian thực, giúp các bot có thể truy vấn cơ sở dữ liệu, kiểm tra tồn kho hoặc lấy chi tiết tài khoản người dùng ngay trong cuộc hội thoại.

Tự động hóa tạo nội dung cho bản sao tiếp thị, bài đăng blog và mô tả sản phẩm bằng cách lấy mẫu có kiểm soát nhiệt độ.
Các công cụ trợ lý lập trình tích hợp DeepSeek Coder V2 vào các IDE để tự động hoàn thành, gợi ý tái cấu trúc và phát hiện lỗi.
Pipeline phân tích dữ liệu nơi API xử lý các bài báo nghiên cứu, báo cáo tài chính hoặc tài liệu pháp lý với tính năng trích xuất cấu trúc.
Triển khai pipeline RAG kết hợp DeepSeek Embeddings để truy xuất với các mô hình chat cho việc tạo văn bản thực tế.

Một tích hợp RAG điển hình sử dụng endpoint embeddings để vector hóa các tài liệu cơ sở kiến thức, lưu trữ các vector trong Pinecone hoặc Weaviate, sau đó truy xuất các đoạn liên quan để chèn vào ngữ cảnh của chat completion prompt. Kiến trúc này giảm thiểu hiện tượng ảo giác AI trong khi vẫn duy trì sự lưu loát của hội thoại. Chế độ JSON đảm bảo đầu ra có cấu trúc cho quá trình xử lý tiếp theo, đặc biệt có giá trị trong các quy trình tự động yêu cầu phản hồi có thể phân tích được.

Câu hỏi thường gặp (FAQ)

DeepSeek API có tương thích với OpenAI không?

Có, DeepSeek duy trì các endpoint tương thích với OpenAI, cho phép bạn chuyển đổi dễ dàng với thay đổi mã nguồn tối thiểu.

Giá của mô hình DeepSeek V3 là bao nhiêu?

Mô hình V3 có giá $0.27 cho mỗi 1 triệu token đầu vào và $1.10 cho mỗi 1 triệu token đầu ra.

Tôi có được nhận token miễn phí khi đăng ký không?

Các tài khoản mới thường được tặng khoản tín dụng miễn phí trị giá $5 để thử nghiệm dịch vụ.

Giới hạn cửa sổ ngữ cảnh là bao nhiêu?

Các mô hình hàng đầu như DeepSeek V3 hỗ trợ cửa sổ ngữ cảnh lên đến 128K token.

Làm thế nào để xác thực với API?

Bạn sử dụng Bearer token (API Key) được tạo từ bảng điều khiển nhà phát triển trong tiêu đề Authorization.

DeepSeek có hỗ trợ Streaming không?

Có, API hỗ trợ phản hồi dạng streaming cho các ứng dụng yêu cầu phản hồi theo thời gian thực.

DeepSeek Coder V2 hỗ trợ những ngôn ngữ lập trình nào?

Nó hỗ trợ tối ưu hóa cho Python, JavaScript, Java, C++, Go và nhiều ngôn ngữ khác.

Tôi có thể sử dụng DeepSeek cho mục đích thương mại không?

Có, API được thiết kế cho cả nhà phát triển cá nhân và các doanh nghiệp sử dụng trong sản phẩm thương mại.

Thời gian phản hồi trung bình của API là bao nhiêu?

Độ trễ trung bình thường dưới 200ms thông qua các endpoint CDN toàn cầu.

Làm thế nào để kiểm tra mức độ tiêu thụ token?

Bảng điều khiển nhà phát triển cung cấp phân tích chi tiết và theo dõi tiêu thụ token theo thời gian thực.