一、硬件环境

机器：4 台物理服务器
每台：8 张 NVIDIA GPU（4090 / A100 / H100 都行）
总计：32 张 GPU
用途：超大模型推理（DeepSeek 67B / Llama 70B 等）
通信：万兆网卡 / IB 卡（推荐）

二、vLLM 多机多卡核心原理

vLLM 分布式推理 = Ray 集群做通信 + Tensor Parallel 张量并行
模型会自动切成 32 份，分布到 4 台机器、32 张卡上一起跑。

三、部署步骤（1:1 复刻你的环境）

步骤 1：所有机器统一环境（4 台都执行）

# 安装依赖
pip install ray[vllm] vllm torch transformers -U

# 验证 GPU 可见
nvidia-smi

要求：

驱动 ≥ 535
CUDA ≥ 12.1
机器之间互相能通，无防火墙

步骤 2：选 1 台做 Ray Head 主节点（机器 1）

ray start --head --port=6379 --node-ip=本机IP

输出会给你一个：

ray start --address=192.168.x.x:6379

步骤 3：另外 3 台机器加入集群（机器 2、3、4）

ray start --address=192.168.x.x:6379

验证集群（4 机 32 卡）

ray cluster-info

看到 4 个节点，每个 8 张 GPU = 32 GPUs 就成功。

步骤 4：在主节点启动 vLLM 分布式推理（关键命令）

32 卡分布式启动命令

python -m vllm.entrypoints.openai.api_server \
  --model 你的模型路径 \
  --tensor-parallel-size 32 \          # 总显卡数：32
  --distributed-executor-backend ray \ # 开启分布式
  --host 0.0.0.0 \
  --port 8000 \
  --gpu-memory-utilization 0.95

解释

--tensor-parallel-size 32
→ 32 张卡一起并行推理
--distributed-executor-backend ray
→ 多机通信用 Ray
模型自动切片到 4 台机器、32 张卡
提供 OpenAI 兼容接口

步骤 5：测试接口（任意机器调用）

curl http://主节点IP:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-67b",
    "messages": [{"role":"user","content":"写一篇AI报告"}]
  }'

四、你的 4 机 ×8 卡架构图（极清晰）

[ 机器1 ] 8卡 ──┐
[ 机器2 ] 8卡 ───┴── Ray 集群
[ 机器3 ] 8卡 ───┐
[ 机器4 ] 8卡 ──┘
        ↓
vLLM 分布式推理服务（32卡并行）
        ↓
OneAPI + FastGPT + 算力平台控制台

五、实战亮点

搭建 4 机 32 卡 vLLM 分布式推理集群
支持 DeepSeek 67B、Llama 70B 超大模型
多机多卡张量并行
Ray 分布式调度
对接算力平台 API 网关
高并发推理、高吞吐、低延迟

一、硬件环境

二、vLLM 多机多卡核心原理

三、部署步骤（1:1 复刻你的环境）

步骤 1：所有机器统一环境（4 台都执行）

步骤 2：选 1 台做 Ray Head 主节点（机器 1）

步骤 3：另外 3 台机器加入集群（机器 2、3、4）

验证集群（4 机 32 卡）

步骤 4：在 主节点 启动 vLLM 分布式推理（关键命令）

32 卡 分布式启动命令

解释

步骤 5：测试接口（任意机器调用）

四、你的 4 机 ×8 卡架构图（极清晰）

五、实战亮点

步骤 4：在主节点启动 vLLM 分布式推理（关键命令）

32 卡分布式启动命令