vllm 部署 deepseek 的安装流程

ai1个月前更新 aier

72 0

### 一、环境准备

1. **CUDA 与 cuDNN 安装**

– 安装 CUDA 12.1（需匹配 NVIDIA 驱动）
– 安装 cuDNN 8.9.0 并配置环境变量
– 验证安装：`nvidia-smi` 查看 GPU 状态，`nvcc –version` 检查 CUDA 版本

1. **Python 及依赖安装**

– 指定 Python 3.10.8 环境
– 安装 PyTorch 2.5.1+cu124：

“`bash
pip install torch==2.5.1+cu124 torchvision torchaudio
“`

– Bash

### 二、部署步骤

1. **安装 vLLM 框架**

“`basg
pip install vllm –upgrade
export VLLM_USE_V1=1 # 启用vLLM v1优化
“`

2. **下载 DeepSeek 模型**

– 从 Hugging Face 下载量化模型（如 32B Q4_K_M 版本）：

“`
huggingface-cli download –resume-download bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF –local-dir [存储路径]
“`

3. **启动推理服务**

“`basb]h
python -m vllm.entrypoints.openai.api_server \
–model [DeepSeek模型路径]/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf \
–served-model-name deepseek-r1-32b \
–trust-remote-code \
–host 0.0.0.0 \
–port 6006 \
–max-model-len 2048 \
–dtype float16 \
–enforce-eager \
–max_num_seqs 1
“`

4. **关键参数说明**：

– `–max-model-len`: 根据显存调整（4096 可能触发 OOM）
– `–max_num_seqs`: 单卡建议设为 1 以保证内存稳定

### 三、硬件推荐配置

### 四、验证部署

1. 本地测试 API 接口：

“`bash
curl http://localhost:6006/v1/completions \
-H “Content-Type: application/json” \
-d ‘{“model”: “deepseek-r1-32b”, “prompt”: “解释量子计算”, “max_tokens”: 100}’
“`

2. 通过 SSH 隧道开放服务：

“`basg
ssh -CNg -L 6006:127.0.0.1:6006 [用户名]@[服务器IP] -p [SSH端口]
“`

> **文档依据**：来自《LangChain+RAG+Agent 本地部署 DeepSeek-R1 商用级知识库…》《DeepSeek 内部研讨系列》等章节，具体内容涉及 CUDA 配置、vLLM 命令参数及硬件建议数据。