如何在算力云上部署Qwen/Qwen3-8B

📅 2026/7/6 6:00:25 👁️ 阅读次数 📝 编程学习

注册算力云账号

访问AutoDL算力云官网完成账号注册流程。平台提供多种GPU算力租赁方案，注册后可通过实名认证提升账号权限。

购买算力云服务

登录后进入控制台，选择符合需求的GPU实例规格（如显存大小、显卡型号）。注意选择适合大模型训练的配置，通常需要16GB以上显存。付款后等待实例初始化完成。

连接服务器

使用SSH工具（如Tabby、MobaXterm）连接分配的服务器IP。连接信息在实例详情页可见，需使用提供的登录密码或密钥文件。首次连接建议创建模型存储目录：

mkdir -p /root/autodl-tmp/models

准备模型下载环境

安装必要的Python库，建议创建虚拟环境：

pip install modelscope torch

配置下载脚本

创建download.py文件，以下载Qwen2.5-Omni-3B为例：

from modelscope import snapshot_download # 可选模型，按需取消注释切换 # model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat', cache_dir='/root/autodl-tmp/models', revision='master') # model_dir = snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', cache_dir='/root/autodl-tmp/models', revision='master') # model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-8B-Instruct', cache_dir='/root/autodl-tmp/models', revision='master') # model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct', cache_dir='/root/autodl-tmp/models', revision='master') # model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-8B-Instruct') model_dir = snapshot_download('Qwen/Qwen3-8B', cache_dir='/root/autodl-tmp/models', revision='master') # 当前下载模型 Qwen2.5-Omni-3B #model_dir = snapshot_download('Qwen/Qwen2.5-Omni-3B', cache_dir='/root/autodl-tmp/models', revision='master') print(f"模型下载完成，存放路径：{model_dir}")

执行下载命令

运行脚本并监控下载进度：

python download.py

下载过程中会显示进度条，完成时输出模型存储路径。若需切换模型，修改脚本中的模型ID即可。

验证下载结果

检查模型文件是否完整：

ls -lh /root/autodl-tmp/models/Qwen/Qwen2.5-Omni-3B

正常应包含config.json、pytorch_model.bin等核心文件。若下载中断，重新运行脚本会自动续传。

部署vLLM推理服务

安装vLLM推理框架：

pip install vllm

验证服务是否安装：

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"

启动推理服务

启动Qwen3-8B推理服务（支持工具调用）：

python -m vllm.entrypoints.openai.api_server \ --model /root/autodl-tmp/models/Qwen/Qwen3-8B \ --served-model-name qwen3-8b \ --max-model-len 8k \ --host 0.0.0.0 \ --port 6006 \ --dtype bfloat16 \ --gpu-memory-utilization 0.8 \ --enable-auto-tool-choice \ --tool-call-parser hermes \ --enable-reasoning \ --reasoning-parser deepseek_r1

虚拟环境版安装（推荐）

新建并激活虚拟环境（仅第一次执行）：

python -m venv ~/autodl-tmp/venv-llm source ~/autodl-tmp/venv-llm/bin/activate

一键安装全套依赖：

pip install vllm modelscope torch transformers accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple

校验vLLM新版本是否支持reasoning参数：

python -m vllm.entrypoints.openai.api_server -h | grep reasoning

启动完整带思维链的服务：

python -m vllm.entrypoints.openai.api_server \ --model /root/autodl-tmp/models/Qwen/Qwen3-8B \ --served-model-name qwen3-8b \ --max-model-len 8k \ --host 0.0.0.0 \ --port 6006 \ --dtype bfloat16 \ --gpu-memory-utilization 0.8 \ --enable-auto-tool-choice \ --tool-call-parser hermes \ --enable-reasoning \ --reasoning-parser deepseek_r1

本地访问服务

服务启动后，可通过以下方式测试：

curl http://localhost:6006/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3-8b", "messages": [ {"role": "user", "content": "你好"} ] }'

编程学习技术分享实战经验

资讯详情

如何在算力云上部署Qwen/Qwen3-8B

注册算力云账号

购买算力云服务

连接服务器

准备模型下载环境

配置下载脚本

执行下载命令

验证下载结果

部署vLLM推理服务

启动推理服务

虚拟环境版安装（推荐）

本地访问服务

最新新闻

日新闻

周新闻

月新闻

资讯详情

如何在算力云上部署Qwen/Qwen3-8B

注册算力云账号

购买算力云服务

连接服务器

准备模型下载环境

配置下载脚本

执行下载命令

验证下载结果

部署vLLM推理服务

启动推理服务

虚拟环境版安装（推荐）

本地访问服务

相关新闻

最新新闻

日新闻

周新闻

月新闻