4路4090 24G 跑Qwen3.5:27B 搭配OpenClaw 使用Vllm 完整启动配置

[Unit]
Description=vLLM API Server (Local Model)
After=network.target

[Service]
Type=simple
User=system
Group=system
WorkingDirectory=/tmp

# 环境变量
Environment="PATH=/home/system/vllm_env/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
Environment="CUDA_VISIBLE_DEVICES=0,1,2,3"
Environment="NCCL_DEBUG=INFO"
Environment="NCCL_IB_DISABLE=1"
Environment="PYTHONUNBUFFERED=1"
Environment="HF_HUB_OFFLINE=1"
Environment="VLLM_USE_MODELSCOPE=0"

# 内存锁定限制(NCCL 需要)
LimitMEMLOCK=infinity
LimitCORE=infinity

# 关键修改:使用本地模型缓存的绝对路径(替换原来的 --model Qwen/...)
# 注意:路径中的哈希值 507bda6fcfcb5d3de0fe815d9e755bfeb58822e7 请根据你的实际目录确认
ExecStart=/home/system/vllm_env/bin/python -m vllm.entrypoints.openai.api_server \
    --model /home/system/.cache/huggingface/hub/models--Qwen--Qwen3.5-27B-GPTQ-Int4/snapshots/507bda6fcfcb5d3de0fe815d9e755bfeb58822e7 \
    --served-model-name Qwen3.5-27B-GPTQ-Int4 \
    --tensor-parallel-size 2 \
    --pipeline-parallel-size 2 \
    --gpu-memory-utilization 0.9 \
    --max-model-len 128000 \
    --kv-cache-dtype fp8 \
    --max-num-seqs 4 \
    --enable-prefix-caching \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_xml

# 重启策略
Restart=on-failure
RestartSec=10
TimeoutStartSec=600

[Install]
WantedBy=multi-user.target

两个坑点,在AI的建议下完成配置之后,总发现Openclaw无法调用tools,经常回复一句话就没了下文,于是花了几天时间开始排障,开始以为是openclaw频繁更新版本出的幺蛾子,最终发现问题出在Vllm调用tools本身,需要添加关键参数–enable-auto-tool-choice –tool-call-parser qwen3_xml ,AI没能很好的解决问题,总是给出过时回复,导致绕了不少弯路,究其原因,可能是模型本身迭代速度太快AI信息源滞后所致。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理