以下是 DeepSeek 本地部署的详细配置教程,支持在个人电脑或服务器上运行模型。目前 DeepSeek 提供了开源模型(如 DeepSeek LLM),可以在本地或私有云环境部署。
1. 硬件要求
DeepSeek 的本地部署对硬件有一定要求,具体取决于模型规模:
模型规模 | 最低 GPU 显存 | 推荐配置 | 适用场景 |
---|---|---|---|
DeepSeek 7B | 16GB | RTX 3090 / A10G | 个人测试、小规模应用 |
DeepSeek 67B | 80GB | A100 80GB / H100 | 企业级、高性能推理 |
-
CPU 运行(不推荐):仅限小模型(7B 量化版),速度较慢。
-
存储需求:模型文件较大(7B 约 15GB,67B 约 130GB),确保有足够磁盘空间。
2. 安装依赖环境
2.1 Python 环境
推荐使用 Python 3.9+,并创建虚拟环境:
conda create -n deepseek python=3.10 -y conda activate deepseek
2.2 安装 PyTorch
根据 CUDA 版本安装对应的 PyTorch(以 CUDA 11.8 为例):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
2.3 安装 Hugging Face 库
pip install transformers accelerate sentencepiece
3. 下载 DeepSeek 模型
DeepSeek 开源模型托管在 Hugging Face,可使用 git lfs
下载:
3.1 安装 Git LFS
sudo apt install git-lfs # Linux git lfs install
3.2 下载模型
git clone https://huggingface.co/deepseek-ai/deepseek-llm-7b
(如需 DeepSeek 67B,替换为 deepseek-llm-67b
)
4. 本地推理运行
4.1 使用 Transformers 加载模型
from transformers import AutoModelForCausalLM, AutoTokenizer model_path = "deepseek-llm-7b" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto") input_text = "DeepSeek 是什么?" inputs = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
4.2 使用 vLLM(高性能推理)
pip install vllm
运行:
from vllm import LLM, SamplingParams model = LLM(model="deepseek-llm-7b") sampling_params = SamplingParams(temperature=0.7, top_p=0.9) outputs = model.generate("DeepSeek 的特点是什么?", sampling_params) print(outputs[0].text)
5. 量化部署(减少显存占用)
如果显存不足,可以使用 GPTQ 或 AWQ 量化:
5.1 GPTQ 量化
pip install auto-gptq
加载 4bit 量化模型:
from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained( "deepseek-llm-7b", device_map="auto", trust_remote_code=True, revision="gptq-4bit" )
5.2 AWQ 量化
pip install autoawq
加载 AWQ 模型:
from awq import AutoAWQForCausalLM model = AutoAWQForCausalLM.from_quantized("deepseek-llm-7b-awq")
6. 进阶部署
6.1 使用 FastAPI 搭建 API
from fastapi import FastAPI from pydantic import BaseModel app = FastAPI() class Query(BaseModel): text: str @app.post("/ask") def ask(query: Query): outputs = model.generate(query.text) return {"response": outputs[0].text}
运行:
uvicorn app:app --reload
6.2 Docker 部署
FROM pytorch/pytorch:2.0.1-cuda11.7-cudnn8-runtime RUN pip install transformers accelerate COPY . /app WORKDIR /app CMD ["python", "inference.py"]
构建镜像:
docker build -t deepseek . docker run --gpus all -p 8000:8000 deepseek
7. 常见问题
Q1:显存不足怎么办?
-
使用 量化模型(GPTQ/AWQ)。
-
尝试 CPU 模式(仅限小模型):
model = AutoModelForCausalLM.from_pretrained("deepseek-llm-7b", device_map="cpu")
Q2:如何提高推理速度?
-
使用 vLLM 或 TGI(Text Generation Inference)。
-
开启 Flash Attention:
pip install flash-attn
Q3:模型下载太慢?
-
使用
huggingface-cli
加速:pip install -U huggingface_hub huggingface-cli download deepseek-ai/deepseek-llm-7b --local-dir ./deepseek-7b
总结
-
推荐 GPU:RTX 3090 / A100(7B 模型)或 H100(67B 模型)。
-
优化方案:量化(GPTQ/AWQ)、vLLM 加速。
-
企业级部署:可结合 FastAPI + Docker 提供 API 服务。
域名频道为客户提供服务器代维服务,为客户节约服务器维护成本,费用不到专职人员的十分之一。
服务器托管与单独构建机房和租用专线上网相比、其整体运营成本有较大降低。
网站空间可随意增减空间大小,空间升级可以按照对应的产品号升级到相对应的空间类型。随时随地能达到用户的使用要求。
您有自己的独立服务器,需要托管到国内机房,我们为你提供了上海电信五星级骨干机房,具体请查看http://www.dns110.com/server/ai-server.asp