vLLM Sleep Mode

https://docs.vllm.ai/en/latest/features/sleep_mode/

可以在不停止vLLM服务的情况下,通过接口睡眠、唤醒来切换不同的模型

需要手动指定–gpu-memory-utilization,否则多vLLM显存会冲突

1
2
3
4
5
6
7
8
9
10
11
docker run --rm -it \
--name Qwen3-4B \
--runtime=nvidia \
--entrypoint='' \
-e VLLM_NO_USAGE_STATS=1 \
-e VLLM_USE_V1=1 \
-e VLLM_SERVER_DEV_MODE=1 \
--cap-add=sys_nice --ipc=host --network host \
-v /data/cache:/data/cache \
docker.io/vllm/vllm-openai:v0.11.0 \
vllm serve Qwen/Qwen3-4B --disable-log-requests --no-enable-prefix-caching --port=8000 --tensor-parallel-size=1 --max-model-len=2048 --gpu-memory-utilization=0.5 --enable-sleep-mode