一、硬件环境

  • 机器:4 台物理服务器

  • 每台:8 张 NVIDIA GPU(4090 / A100 / H100 都行)

  • 总计:32 张 GPU

  • 用途:超大模型推理(DeepSeek 67B / Llama 70B 等)

  • 通信:万兆网卡 / IB 卡(推荐)


二、vLLM 多机多卡核心原理

vLLM 分布式推理 = Ray 集群做通信 + Tensor Parallel 张量并行

模型会自动切成 32 份,分布到 4 台机器、32 张卡上一起跑。

三、部署步骤(1:1 复刻你的环境)

步骤 1:所有机器统一环境(4 台都执行)

# 安装依赖
pip install ray[vllm] vllm torch transformers -U

# 验证 GPU 可见
nvidia-smi

要求:

  • 驱动 ≥ 535

  • CUDA ≥ 12.1

  • 机器之间互相能通,无防火墙

步骤 2:选 1 台做 Ray Head 主节点(机器 1)

ray start --head --port=6379 --node-ip=本机IP

输出会给你一个:

ray start --address=192.168.x.x:6379

步骤 3:另外 3 台机器加入集群(机器 2、3、4)

ray start --address=192.168.x.x:6379

验证集群(4 机 32 卡)

ray cluster-info

看到 4 个节点,每个 8 张 GPU = 32 GPUs 就成功。

步骤 4:在 主节点 启动 vLLM 分布式推理(关键命令)

32 卡 分布式启动命令

python -m vllm.entrypoints.openai.api_server \
  --model 你的模型路径 \
  --tensor-parallel-size 32 \          # 总显卡数:32
  --distributed-executor-backend ray \ # 开启分布式
  --host 0.0.0.0 \
  --port 8000 \
  --gpu-memory-utilization 0.95

解释

  • --tensor-parallel-size 32

    32 张卡一起并行推理

  • --distributed-executor-backend ray

    → 多机通信用 Ray

  • 模型自动切片到 4 台机器、32 张卡

  • 提供 OpenAI 兼容接口


步骤 5:测试接口(任意机器调用)

curl http://主节点IP:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-67b",
    "messages": [{"role":"user","content":"写一篇AI报告"}]
  }'

四、你的 4 机 ×8 卡架构图(极清晰)

[ 机器1 ] 8卡 ──┐
[ 机器2 ] 8卡 ───┴── Ray 集群
[ 机器3 ] 8卡 ───┐
[ 机器4 ] 8卡 ──┘
        ↓
vLLM 分布式推理服务(32卡并行)
        ↓
OneAPI + FastGPT + 算力平台控制台

五、实战亮点

  • 搭建 4 机 32 卡 vLLM 分布式推理集群

  • 支持 DeepSeek 67B、Llama 70B 超大模型

  • 多机多卡张量并行

  • Ray 分布式调度

  • 对接算力平台 API 网关

  • 高并发推理、高吞吐、低延迟

文章作者: 楚少爱看雪
版权声明: 本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 楚少爱看雪
学习 Study
喜欢就支持一下吧