32 卡 vLLM 分布式集群性能调优方案
一、Ray 集群前置优化(4 台机器全部执行)
1. Ray 集群网络优化
多机多卡推理,网络带宽直接决定性能,优先开启 RDMA/IB 优化
# 禁用Ray虚拟内存
exportRAY_ENABLE_SHARED_MEMORY=0
# 开启GPU Direct通信优化
export NCCL_NET_GDR_LEVEL=5
export NCCL_IB_DISABLE=0
# 以太网环境关闭IB,避免报错
# export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=bond0 # 替换为万兆网卡名
2. 系统层面优化
# 提升文件句柄数
ulimit -n 65535
# 关闭内存交换
swapoff -a
# 开启GPU高性能模式
nvidia-smi -pm 1
nvidia-smi -ac 8001,1410 # 针对A100/H100,4090可默认
二、32 卡启动调优命令(最终生产版)
主节点执行,适配超大模型分布式推理
python -m vllm.entrypoints.openai.api_server \
--model /data/models/deepseek-67b-chat \
--tensor-parallel-size 32 \
--distributed-executor-backend ray \
--host 0.0.0.0 \
--port 8000 \
--gpu-memory-utilization 0.92 \
--max-num-batched-tokens 65536 \
--max-running-seqs 4096 \
--trust-remote-code \
--load-format awq \
--dtype auto \
--swap-space 32 \
--enable-prefix-caching
三、核心调优参数详解
四、分场景差异化调优
1. 大模型推理(DeepSeek 67B)
优先保证稳定性,降低并发,提升单请求速度
--max-num-batched-tokens 32768
--gpu-memory-utilization 0.85
2. 高并发租户场景(算力租赁平台)
追求吞吐最大化,适配大量轻量级请求
--max-num-batched-tokens 131072
--max-running-seqs 8192
五、32 卡分布式集群常见故障与解决方案
多机通信超时,NCCL 报错
检查防火墙端口放行 6379、端口范围 2000-65535,确认网卡配置正确
单卡显存溢出 OOM
降低
gpu-memory-utilization,使用量化模型,检查张量并行数匹配总显卡数Ray 节点掉线
关闭节点内存回收,配置 Ray 节点存活检测,保证万兆网络稳定
推理速度远低于预期
以太网建议升级 IB 网卡,关闭 CPU 节能模式,绑定 NUMA 节点
六、集群验证与压测
检查 Ray 集群 GPU 状态
ray status
使用脚本压测,验证集群吞吐能力
# 批量请求测试集群性能
for i in {1..100}; do
curl http://127.0.0.1:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "deepseek-67b","messages": [{"role": "user", "content": "介绍下人工智能"}]}' &
done
七、监控方案
部署 Ray Dashboard,通过主节点IP:8265访问
监控 GPU 显存、算力使用率、节点状态,搭配 DCGM Exporter 监控硬件状态
版权声明:
本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自
楚少爱看雪!
喜欢就支持一下吧