32 卡 vLLM 分布式集群性能调优方案

一、Ray 集群前置优化（4 台机器全部执行）

1. Ray 集群网络优化

多机多卡推理，网络带宽直接决定性能，优先开启 RDMA/IB 优化

# 禁用Ray虚拟内存
exportRAY_ENABLE_SHARED_MEMORY=0
# 开启GPU Direct通信优化
export NCCL_NET_GDR_LEVEL=5
export NCCL_IB_DISABLE=0
# 以太网环境关闭IB，避免报错
# export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=bond0  # 替换为万兆网卡名

2. 系统层面优化

# 提升文件句柄数
ulimit -n 65535
# 关闭内存交换
swapoff -a
# 开启GPU高性能模式
nvidia-smi -pm 1
nvidia-smi -ac 8001,1410 # 针对A100/H100，4090可默认

二、32 卡启动调优命令（最终生产版）

主节点执行，适配超大模型分布式推理

python -m vllm.entrypoints.openai.api_server \
--model /data/models/deepseek-67b-chat \
--tensor-parallel-size 32 \
--distributed-executor-backend ray \
--host 0.0.0.0 \
--port 8000 \
--gpu-memory-utilization 0.92 \
--max-num-batched-tokens 65536 \
--max-running-seqs 4096 \
--trust-remote-code \
--load-format awq \
--dtype auto \
--swap-space 32 \
--enable-prefix-caching

三、核心调优参数详解

参数	配置值	优化作用
tensor-parallel-size	32	32 张显卡张量并行，拆分大模型权重
gpu-memory-utilization	0.92	预留显存，避免多机通信导致 OOM
max-num-batched-tokens	65536	提升并发请求吞吐量，适配算力平台多租户
enable-prefix-caching	开启	缓存对话前缀，大幅提升重复请求速度
load-format awq	开启	量化模型，降低 50% 显存占用，速度几乎无损失
swap-space	32	预留 CPU 内存交换空间，应对峰值请求

四、分场景差异化调优

1. 大模型推理（DeepSeek 67B）

优先保证稳定性，降低并发，提升单请求速度

--max-num-batched-tokens 32768
--gpu-memory-utilization 0.85

2. 高并发租户场景（算力租赁平台）

追求吞吐最大化，适配大量轻量级请求

--max-num-batched-tokens 131072
--max-running-seqs 8192

五、32 卡分布式集群常见故障与解决方案

多机通信超时，NCCL 报错
检查防火墙端口放行 6379、端口范围 2000-65535，确认网卡配置正确
单卡显存溢出 OOM
降低gpu-memory-utilization，使用量化模型，检查张量并行数匹配总显卡数
Ray 节点掉线
关闭节点内存回收，配置 Ray 节点存活检测，保证万兆网络稳定
推理速度远低于预期
以太网建议升级 IB 网卡，关闭 CPU 节能模式，绑定 NUMA 节点

六、集群验证与压测

检查 Ray 集群 GPU 状态

ray status

使用脚本压测，验证集群吞吐能力

# 批量请求测试集群性能
for i in {1..100}; do
curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "deepseek-67b","messages": [{"role": "user", "content": "介绍下人工智能"}]}' &
done

七、监控方案

部署 Ray Dashboard，通过主节点IP:8265访问

监控 GPU 显存、算力使用率、节点状态，搭配 DCGM Exporter 监控硬件状态