一、Ray 集群前置优化(4 台机器全部执行)

1. Ray 集群网络优化

多机多卡推理,网络带宽直接决定性能,优先开启 RDMA/IB 优化

# 禁用Ray虚拟内存
exportRAY_ENABLE_SHARED_MEMORY=0
# 开启GPU Direct通信优化
export NCCL_NET_GDR_LEVEL=5
export NCCL_IB_DISABLE=0
# 以太网环境关闭IB,避免报错
# export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME=bond0  # 替换为万兆网卡名

2. 系统层面优化

# 提升文件句柄数
ulimit -n 65535
# 关闭内存交换
swapoff -a
# 开启GPU高性能模式
nvidia-smi -pm 1
nvidia-smi -ac 8001,1410 # 针对A100/H100,4090可默认

二、32 卡启动调优命令(最终生产版)

主节点执行,适配超大模型分布式推理

python -m vllm.entrypoints.openai.api_server \
--model /data/models/deepseek-67b-chat \
--tensor-parallel-size 32 \
--distributed-executor-backend ray \
--host 0.0.0.0 \
--port 8000 \
--gpu-memory-utilization 0.92 \
--max-num-batched-tokens 65536 \
--max-running-seqs 4096 \
--trust-remote-code \
--load-format awq \
--dtype auto \
--swap-space 32 \
--enable-prefix-caching

三、核心调优参数详解

参数

配置值

优化作用

tensor-parallel-size

32

32 张显卡张量并行,拆分大模型权重

gpu-memory-utilization

0.92

预留显存,避免多机通信导致 OOM

max-num-batched-tokens

65536

提升并发请求吞吐量,适配算力平台多租户

enable-prefix-caching

开启

缓存对话前缀,大幅提升重复请求速度

load-format awq

开启

量化模型,降低 50% 显存占用,速度几乎无损失

swap-space

32

预留 CPU 内存交换空间,应对峰值请求

四、分场景差异化调优

1. 大模型推理(DeepSeek 67B)

优先保证稳定性,降低并发,提升单请求速度

--max-num-batched-tokens 32768
--gpu-memory-utilization 0.85

2. 高并发租户场景(算力租赁平台)

追求吞吐最大化,适配大量轻量级请求

--max-num-batched-tokens 131072
--max-running-seqs 8192

五、32 卡分布式集群常见故障与解决方案

  1. 多机通信超时,NCCL 报错

    检查防火墙端口放行 6379、端口范围 2000-65535,确认网卡配置正确

  2. 单卡显存溢出 OOM

    降低gpu-memory-utilization,使用量化模型,检查张量并行数匹配总显卡数

  3. Ray 节点掉线

    关闭节点内存回收,配置 Ray 节点存活检测,保证万兆网络稳定

  4. 推理速度远低于预期

    以太网建议升级 IB 网卡,关闭 CPU 节能模式,绑定 NUMA 节点

六、集群验证与压测

  1. 检查 Ray 集群 GPU 状态

ray status
  1. 使用脚本压测,验证集群吞吐能力

# 批量请求测试集群性能
for i in {1..100}; do
curl http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "deepseek-67b","messages": [{"role": "user", "content": "介绍下人工智能"}]}' &
done

七、监控方案

部署 Ray Dashboard,通过主节点IP:8265访问

监控 GPU 显存、算力使用率、节点状态,搭配 DCGM Exporter 监控硬件状态

文章作者: 楚少爱看雪
版权声明: 本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 楚少爱看雪
学习 Study
喜欢就支持一下吧