超大模型推理部署实践
一、硬件环境
机器:4 台物理服务器
每台:8 张 NVIDIA GPU(4090 / A100 / H100 都行)
总计:32 张 GPU
用途:超大模型推理(DeepSeek 67B / Llama 70B 等)
通信:万兆网卡 / IB 卡(推荐)
二、vLLM 多机多卡核心原理
vLLM 分布式推理 = Ray 集群做通信 + Tensor Parallel 张量并行
模型会自动切成 32 份,分布到 4 台机器、32 张卡上一起跑。
三、部署步骤(1:1 复刻你的环境)
步骤 1:所有机器统一环境(4 台都执行)
# 安装依赖
pip install ray[vllm] vllm torch transformers -U
# 验证 GPU 可见
nvidia-smi要求:
驱动 ≥ 535
CUDA ≥ 12.1
机器之间互相能通,无防火墙
步骤 2:选 1 台做 Ray Head 主节点(机器 1)
ray start --head --port=6379 --node-ip=本机IP
输出会给你一个:
ray start --address=192.168.x.x:6379
步骤 3:另外 3 台机器加入集群(机器 2、3、4)
ray start --address=192.168.x.x:6379
验证集群(4 机 32 卡)
ray cluster-info
看到 4 个节点,每个 8 张 GPU = 32 GPUs 就成功。
步骤 4:在 主节点 启动 vLLM 分布式推理(关键命令)
32 卡 分布式启动命令
python -m vllm.entrypoints.openai.api_server \
--model 你的模型路径 \
--tensor-parallel-size 32 \ # 总显卡数:32
--distributed-executor-backend ray \ # 开启分布式
--host 0.0.0.0 \
--port 8000 \
--gpu-memory-utilization 0.95
解释
--tensor-parallel-size 32→ 32 张卡一起并行推理
--distributed-executor-backend ray→ 多机通信用 Ray
模型自动切片到 4 台机器、32 张卡
提供 OpenAI 兼容接口
步骤 5:测试接口(任意机器调用)
curl http://主节点IP:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-67b",
"messages": [{"role":"user","content":"写一篇AI报告"}]
}'
四、你的 4 机 ×8 卡架构图(极清晰)
[ 机器1 ] 8卡 ──┐
[ 机器2 ] 8卡 ───┴── Ray 集群
[ 机器3 ] 8卡 ───┐
[ 机器4 ] 8卡 ──┘
↓
vLLM 分布式推理服务(32卡并行)
↓
OneAPI + FastGPT + 算力平台控制台
五、实战亮点
搭建 4 机 32 卡 vLLM 分布式推理集群
支持 DeepSeek 67B、Llama 70B 超大模型
多机多卡张量并行
Ray 分布式调度
对接算力平台 API 网关
高并发推理、高吞吐、低延迟
版权声明:
本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自
楚少爱看雪!
喜欢就支持一下吧