本地部署AI Agent,6G显存跑Qwen3.6-35B-A3B 从入门到实战全流程

📅 2026/7/3 2:46:27 👁️ 阅读次数 📝 编程学习
本地部署AI Agent,6G显存跑Qwen3.6-35B-A3B 从入门到实战全流程

💡 读完这篇,你能做到这三件事:
1️⃣ 用 6G 显存跑 35B 超大模型(MoE 架构的黑魔法)
2️⃣ 把你的 Windows 电脑变成一台完全不花钱、不联网、无限 token 的本地 AI 服务器
3️⃣ 接入 Hermes Agent,打造真正属于自己的 AI 助手——数据不出本机

一、先看最终效果:你的个人 AI 基础设施

浏览器打开http://localhost:8080。你能看到:

  • 一个完整的对话界面,像 ChatGPT 一样聊天
  • 上传图片,模型能看图分析、OCR 识别、描述画面
  • 接入 Hermes Agent 后,它能自动查资料、写代码、执行命令、调用工具

全程本地运行。不消耗任何 API 费用。数据不出你的电脑。没有 token 限制,想聊多少聊多少。

二、为什么是这个模型?MoE 架构详解

2.1 35B 总参数,只激活 3B

Qwen3.6-35B-A3B 是阿里通义千问 2026 年 4 月发布的 MoE(Mixture of Experts)模型,Apache 2.0 协议完全开源。它的核心创新在于:

35B 总参数,但每次推理只激活 3B 参数。
这意味着它拥有 35B 模型的知识容量,但只消耗 3B 模型的算力。

SWE-bench Verified 得分73.4%,超过了全部激活 31B 参数的 Gemma 4-31B(52.0%)。在 Artificial Analysis 排行榜上,40B 以内开源模型中属于第一梯队。

2.2 MoE 不是"偷工减料",是架构创新

很多人第一次听说 MoE 时会有疑惑:35B 参数为什么只激活 3B?这不是欺诈吗?

传统 Dense 模型:35B 参数全部参与每次推理。以 FP16 精度计算,仅加载模型就需要 70GB+ 显存。量化到 Q4 也需要约 20GB。普通消费级显卡根本扛不住。

MoE 模型:35B 参数被分成256 个专家(Expert),外加一个路由网络(Router)。对于每个输入 token,路由器只挑选最相关的 9 个专家激活,其余专家处于"休眠"状态。实际激活参数量仅约 3B。

打个比方:
传统模型像一个 35 人的公司,无论什么任务所有人都得参与——写一行代码也要 35 个人开会。
MoE 模型像一个 35 人的专家团队,收到任务后,“项目经理”(路由器)快速判断任务类型,只派 2-3 个最擅长的人去干。

所以 Qwen3.6-35B-A3B 量化后只需要 6-20GB 显存,跑起来的速度接近 3B 模型,但输出质量接近 35B 模型。这不是参数注水,这是架构效率的革命。

2.3 与其他本地模型的对比

模型架构总参数量激活参数6G显存可跑SWE-bench
Qwen3.6-35B-A3BMoE35B3B✅ (IQ2_M)73.4%
Qwen2.5-32BDense32B32B-
Llama 3.1-8BDense8B8B✅ (Q4)~25%
Gemma 4-31BDense31B31B52.0%
DeepSeek-V2-LiteMoE16B2.4B-

可以看到,在 6G 显存能跑的模型中,Qwen3.6-35B-A3B 是知识密度最高的选择。它用 MoE 架构打破了"显存大小决定模型大小"的物理限制。

三、前提条件:你的电脑能跑吗?

配置项最低要求推荐配置
操作系统Windows 10/11 64位Windows 11 64位
显卡显存6GB8-12GB
系统内存16GB32GB
磁盘空间25GB40GB+(SSD)
显卡类型NVIDIA/AMD/Intel 独显NVIDIA RTX 30/40 系列

**⚠️ 注意:**纯 CPU 也能跑,但速度会慢很多。以 IQ2_M 量化为例,CPU 模式下约 1-2 token/s,GPU 加速可达 10-30 token/s。强烈建议使用支持 CUDA 的 NVIDIA 显卡。

四、阶段一:下载 llama.cpp——本地推理引擎

第一步:选择正确版本

打开 llama.cpp Releases,找最新版本(本文写作时最新为 b9326)。

你的显卡下载文件
NVIDIA RTX 30/40 系列llama-b9326-bin-win-cuda-12.4-x64.zip
AMD RX 系列llama-b9326-bin-win-hip-radeon-x64.zip
Intel Arcllama-b9326-bin-win-vulkan-x64.zip
没有独显llama-b9326-bin-win-cpu-x64.zip

**NVIDIA 用户注意:**除了主包,还要下载cudart-llama-bin-win-cuda-12.4-x64.zip,它包含 CUDA 运行时 DLL,缺失会导致启动报错。

第二步:解压与目录准备

⚠️ 铁律:路径不能有中文。llama.cpp 对中文路径支持不佳,解压到中文目录会报各种莫名其妙的错误。

将压缩包解压到纯英文路径,例如D:\llama-cppC:\llama

CUDA 用户:把 DLL 包的内容也解压到同一目录(覆盖相同文件即可)。

新建一个models子目录:

D:\llama-cpp\ ├── llama-server.exe ← 主程序(这是我们要用的) ├── llama-cli.exe ← 命令行推理工具 ├── llama-quantize.exe ← 量化工具 ├── models\ ← 放模型文件 │ ├── Qwen3.6-35B-A3B-Q4_K_M.gguf │ └── mmproj-Qwen3.6-35B-A3B-f16.gguf └── *.dll (CUDA DLLs)

💡 科普:llama.cpp 是什么?
llama.cpp 是一个纯 C/C++ 实现的大模型推理引擎,由社区开发者 @ggerganov 创建。它不依赖 Python、PyTorch 等重型框架,只需一个 exe 就能跑大模型。它支持 GGUF 格式(一种高效的模型量化格式),自带 K-Quants 量化算法,能将模型从 FP16 压缩到 2-8 bit,同时尽量保持精度。它还内置了 HTTP 服务器(llama-server),提供兼容 OpenAI API 的接口,让任何支持 OpenAI SDK 的工具都能接入。

五、阶段二:下载模型——选择合适的量化等级

第三步:理解 GGUF 量化

GGUF 是 llama.cpp 团队开发的模型文件格式。简单说,它将模型权重从原始的 FP32/FP16 压缩到更低的精度。就好像把一张超高分辨率照片从 RAW 格式压缩成 JPEG——文件小了,但人眼看不出太大差别。

在 HuggingFace 搜索Qwen3.6-35B-A3B GGUF,推荐从 bartowski 或 unsloth 的仓库下载,他们是 GGUF 格式的主要贡献者,量化质量有保障。

显存推荐量化文件大小系统内存推理速度说明
24GB (4090)Q4_K_M~21GB16GB+~130 tok/s完全GPU,极致速度
12-16GBIQ4_XS~19GB32GB+~40-60 tok/s分层加载,部分走内存
8GBQ3_K_M / IQ4_NL~16GB32GB+~15-30 tok/s大部分走内存
6GBIQ2_M~11GB16GB+~8-15 tok/s几乎全走内存,GPU仅辅助

量化级别说明

  • Q4_K_M

    :4-bit K-quants 的中间版本,精度和压缩率的最佳平衡点,推荐显存充足时使用

  • Q3_K_M

    :3-bit K-quants,牺牲少量精度换取更小体积

  • IQ2_M

    :2-bit 工业量化,压缩率最高但精度损失最大,是 6G 显存的"救命稻草"

**还要下载这个文件:**想要多模态看图功能,还必须下载对应的mmproj投影文件(约 1.3GB)。这个文件负责将视觉编码器的输出"投影"到语言模型的嵌入空间,让 LLM 能"看懂"图片。没有它,上传按钮会灰色不可点击。

全部放进models\目录。

💡 为何量化版本的模型文件比原始参数小这么多?
原始 FP16 精度:35B × 2 bytes = 70GB
Q4_K_M 量化后:35B × 0.5 bytes ≈ 17.5GB(加上 overhead 约 21GB)
IQ2_M 量化后:35B × 0.25 bytes ≈ 8.75GB(加上 overhead 约 11GB)
这就是量化的魔力——用 15%-30% 的精度损失,换来 4-8 倍的显存节省。

六、阶段三:启动模型——让大模型跑起来

第四步:一条命令启动

D:\llama-cpp\目录打开 PowerShell(Shift + 右键空白处 → 在此处打开 PowerShell)。

纯文本对话(不需要看图):

.\llama-server.exe -m “models\Qwen3.6-35B-A3B-Q4_K_M.gguf” -ngl 999 -c 32768 -n 8192 --jinja --port 8080

多模态(支持看图):

.\llama-server.exe -m “models\Qwen3.6-35B-A3B-Q4_K_M.gguf” --mmproj “models\mmproj-Qwen3.6-35B-A3B-f16.gguf” -ngl 999 -c 32768 -n 8192 --jinja --port 8080

6G 显存用户(用 IQ2_M,缩小 context):

.\llama-server.exe -m “models\Qwen3.6-35B-A3B-IQ2_M.gguf” --mmproj “models\mmproj-Qwen3.6-35B-A3B-f16.gguf” -ngl 999 -c 8192 -n 4096 --jinja --port 8080

参数详解:

  • -m

    :模型文件路径

  • --mmproj

    :多模态投影文件路径。不加就不能看图

  • -ngl 999

    :尽量把模型层卸载到 GPU 显存。999 是"能放就放",放不下的自动走系统内存

  • -c

    :上下文长度(context size)。8192 ≈ 6000 字中文。显存小就设小一点

  • -n

    :最大生成长度(max tokens)。4096 ≈ 3000 字中文

  • --jinja

    Qwen3.6 必须加这个参数。它启用 Jinja2 模板引擎来渲染聊天模板。不加会出现回复异常、格式错乱、无限重复等问题

  • --port

    :HTTP 服务端口,默认 8080

看到这行输出就成功了:

main: server is listening on http://127.0.0.1:8080

浏览器打开 http://localhost:8080。你就能看到一个完整的聊天界面了。

第五步:一键启动脚本

每次敲命令太烦。新建一个启动模型.cmd文件,粘贴以下内容:

@echo off chcp 65001 >nul cd /d "%~dp0" echo ============================================= echo Qwen3.6-35B-A3B 本地大模型启动器 echo ============================================= echo. echo [1] Q4_K_M(24G 显存推荐,高速) echo [2] IQ4_NL(8-12G 显存,均衡) echo [3] IQ2_M(6G 显存,省显存模式) echo [4] 自定义模型文件 echo. set /p choice=请输入数字 [1-4]: if "%choice%"=="1" set "MODEL=Qwen3.6-35B-A3B-Q4_K_M.gguf"& set "CTX=-c 32768 -n 8192" if "%choice%"=="2" set "MODEL=Qwen3.6-35B-A3B-IQ4_NL.gguf"& set "CTX=-c 32768 -n 8192" if "%choice%"=="3" set "MODEL=Qwen3.6-35B-A3B-IQ2_M.gguf"& set "CTX=-c 8192 -n 4096" .\llama-server.exe -m "models\%MODEL%" -ngl 999 %CTX% --jinja --host 127.0.0.1 --port 8080 pause

放在D:\llama-cpp\目录,双击运行即可。

七、阶段四:接入 Hermes Agent——你的本地 AI 助手

第六步:安装 Hermes Agent

Hermes Agent 是一个开源的 AI Agent 框架,支持本地部署。它能让大模型自动规划任务、调用工具、执行代码。

pipx install hermes-agent

💡 pipx 是什么?
pipx 是一个专门用于安装 Python 命令行工具的包管理器。它会为每个工具创建独立的虚拟环境,避免依赖冲突。如果你还没安装 pipx,先运行:python -m pip install pipx

第七步:配置连接本地模型

hermes model

选择Custom endpoint,然后填写:

  • Base URL:http://127.0.0.1:8080/v1

  • API Key:

    任意值或留空

  • Model:

    留空即可

验证配置:在终端输入hermes,然后发一条消息。如果 Agent 正常回复,同时 llama-server 窗口有请求日志,就说明全部搞定。

第八步:Hermes Agent 能做什么?

接入后,你的本地模型不再只是"聊天机器人",而是真正能干活的 AI 助手

  • 自动执行任务:

    “帮我写一个 Python 脚本,读取当前目录下所有 CSV 文件并合并”

  • 调用工具:

    它可以搜索文件、运行命令、操作 API

  • 自主规划:

    复杂任务可拆解为多个步骤逐步执行

  • 代码生成:

    生成代码并自动运行调试

  • 图片分析:

    上传截图让它分析问题、提取文字

八、拓展应用:你的电脑 = AI 基础设施

跑起来之后,你的电脑就变成了一台完整的 AI 服务器,远超"聊天"的范畴:

8.1 当 OpenAI API 的平替

任何支持 OpenAI SDK 的工具,只要把base_url改成http://localhost:8080/v1,就能直接使用本地模型。举例:

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed" ) response = client.chat.completions.create( model="not-needed", # llama.cpp 会自动使用已加载的模型 messages=[ {"role": "system", "content": "你是一个AI编程助手"}, {"role": "user", "content": "用Python写一个冒泡排序"} ], max_tokens=2048, temperature=0.7 ) print(response.choices[0].message.content)

8.2 接入本地知识库

结合 LangChain 或 LlamaIndex,喂入你的私有文档,构建完全本地运行的 RAG 系统:

pip install langchain langchain-community chromadb # 示例:用本地模型做文档问答 from langchain_community.llms import LlamaCpp from langchain.chains import RetrievalQA from langchain_community.vectorstores import Chroma # ... 你的文档全部本地处理,数据不出本机

8.3 作为 IDE 的 AI 插件后端

在 Continue.dev 或 Tabby 等代码补全工具中,将 API 端点指向本机,让 AI 辅助编程:

  • Continue.dev 配置"apiBase": "http://localhost:8080"
  • 代码审查、重构建议、测试生成——全部本地完成

九、常见坑与排查指南

症状原因解决方案
启动报错file not found路径有中文或模型文件名不对检查路径纯英文,确认文件确实在 models 目录下
error loading modelGGUF 文件损坏或未下载完整重新下载,检查文件大小是否与 HuggingFace 标注一致
回复异常、无限重复启动时没加--jinja加上--jinja参数重启
上传图片按钮灰色没下载 mmproj 文件下载 mmproj 文件,启动时加--mmproj参数
missing DLL错误CUDA DLL 缺失下载 cudart 包,DLL 放到同一目录
显存爆了(OOM)Context 太大或量化等级太高减小-c或换更低的量化(Q3→IQ2)
模型文件只有几十KBHuggingFace 下载受限curl -I URL验证链接,或换镜像源
速度极慢(< 2 tok/s)没有 GPU 加速或-ngl太小确认-ngl 999参数开启,检查是否使用 CUDA 版本
Hermes Agent 连不上Base URL 配置错误确认 llama-server 已启动且端口正确

十、性能调优:让你的模型跑得更快

10.1 关键参数调优建议

  • -ngl调优:

    对于 6G 显存,-ngl 20-ngl 30可能比-ngl 999更快,因为减少了显存-内存之间的频繁数据交换。建议从-ngl 999开始,然后逐步调低,找到最佳吞吐量点。

  • Thread 数:

    -t 6-t 8指定 CPU 线程数,充分发挥多核性能。

  • Batch size:-ub 1024

    可以充分利用 GPU 并行计算能力。

  • Flash Attention:

    --flash-attn可以显著降低显存占用,特别是长上下文场景。

优化版启动命令:

.\llama-server.exe -m "models\Qwen3.6-35B-A3B-IQ2_M.gguf" --mmproj "models\mmproj-Qwen3.6-35B-A3B-f16.gguf" -ngl 28 -c 8192 -n 4096 -t 8 -ub 1024 --flash-attn --jinja --port 8080

10.2 不同配置的预期性能

配置组合量化推理速度首 token 延迟体验评分
RTX 4090 + 64GB 内存Q4_K_M~130 tok/s< 0.5s⭐⭐⭐⭐⭐
RTX 3060 12GB + 32GBIQ4_XS~40-60 tok/s~1s⭐⭐⭐⭐
RTX 2060 6GB + 32GBIQ2_M~8-15 tok/s~2-3s⭐⭐⭐
纯 CPU (i7-13700 + 32GB)IQ2_M~1-3 tok/s~5-10s⭐⭐

**💡 体验建议:**如果能达到 10 tok/s 以上,普通对话已经足够流畅。6-8 tok/s 可以接受但稍有等待感。低于 5 tok/s 更适合做批量处理而非实时对话。

十一、MoE 架构的深层理解

最后,让我们深入理解一下 MoE 到底是怎么回事。毕竟,你正在使用的这个模型,就是靠这种架构才得以在 6G 显存上运行的。

11.1 MoE 的工作流程

每个 MoE 层包含三部分:

  1. 共享专家(Shared Expert):

    所有 token 都必须经过,处理通用知识

  2. 路由专家(Routed Experts):

    256 个专家,各有专长

  3. 路由器(Router):

    一个轻量级网络,决定每个 token 应该由哪些专家处理

当一个 token 进入 MoE 层:

  • 路由器给 256 个专家打分
  • 选择得分最高的 9 个专家(top-9 routing)
  • 只有这 9 个专家 + 1 个共享专家参与计算
  • 输出加权合并

这就是"35B 总参,3B 激活"的来源:256 个专家中只激活 9 个,加上共享专家的参数,实际每 token 只跑约 3B 参数。

11.2 MoE 的负载均衡

MoE 面临的一个核心挑战是负载均衡:如果路由器总是派任务给同一个专家,其他专家就"饿死"了。这会导致模型部分参数从未被训练,损害容量。

Qwen3.6 的解决方案包括:

  • 辅助损失(Auxiliary Loss):

    在训练时惩罚不均衡的路由分配

  • 专家容量限制:

    每个专家的 token 处理数有上限

  • 路由器正则化:

    鼓励更均匀的专家选择

这也是为什么 MoE 模型在推理时虽然效率极高,但训练时需要更多技巧。好在——我们只用推理,不用训练。

11.3 MoE 与量化:双重压缩的艺术

Qwen3.6-35B-A3B 能在 6G 显存上运行,其实用到了两层压缩:

  1. MoE 层

    :推理时只激活 ~9% 的参数(35B → 3B)

  2. 量化

    :再将每个参数从 16-bit 压缩到 2-bit(3B × 2 bytes → 3B × 0.25 bytes = 0.75GB)

实际显存占用还包括 KV Cache(约 2-4GB)、中间激活值、mmproj 等 overhead,所以最终 6G 显存刚好能跑起来。如果你仔细算就会发现:不是 MoE 模型太小,而是压缩技术太强

十二、本地 AI 时代的意义

Qwen3.6-35B-A3B 的出现,加上 llama.cpp + Hermes Agent 的工具链,意味着:

  • AI 不再是云端特权。

    一台普通电脑就能跑起能打的大模型

  • 数据主权回归用户。

    敏感数据不必上传第三方 API

  • 零边际成本。

    没有 token 计费,没有月费,想用多少用多少

  • 可定制、可离线。

    断网也能用,没有审查限制

以前我们需要 24GB 显存才能流畅运行的 7B 模型,现在已经可以在 6GB 显存上跑 35B 模型。这不仅仅是效率的提升,更是本地 AI 从"玩具"向"工具"跨越的标志性节点

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费