本地部署AI Agent，6G显存跑Qwen3.6-35B-A3B 从入门到实战全流程

📅 2026/7/3 2:46:27 👁️ 阅读次数 📝 编程学习

💡 读完这篇，你能做到这三件事：
1️⃣ 用 6G 显存跑 35B 超大模型（MoE 架构的黑魔法）
2️⃣ 把你的 Windows 电脑变成一台完全不花钱、不联网、无限 token 的本地 AI 服务器
3️⃣ 接入 Hermes Agent，打造真正属于自己的 AI 助手——数据不出本机

一、先看最终效果：你的个人 AI 基础设施

浏览器打开http://localhost:8080。你能看到：

一个完整的对话界面，像 ChatGPT 一样聊天
上传图片，模型能看图分析、OCR 识别、描述画面
接入 Hermes Agent 后，它能自动查资料、写代码、执行命令、调用工具

全程本地运行。不消耗任何 API 费用。数据不出你的电脑。没有 token 限制，想聊多少聊多少。

二、为什么是这个模型？MoE 架构详解

2.1 35B 总参数，只激活 3B

Qwen3.6-35B-A3B 是阿里通义千问 2026 年 4 月发布的 MoE（Mixture of Experts）模型，Apache 2.0 协议完全开源。它的核心创新在于：

35B 总参数，但每次推理只激活 3B 参数。
这意味着它拥有 35B 模型的知识容量，但只消耗 3B 模型的算力。

SWE-bench Verified 得分73.4%，超过了全部激活 31B 参数的 Gemma 4-31B（52.0%）。在 Artificial Analysis 排行榜上，40B 以内开源模型中属于第一梯队。

2.2 MoE 不是"偷工减料"，是架构创新

很多人第一次听说 MoE 时会有疑惑：35B 参数为什么只激活 3B？这不是欺诈吗？

传统 Dense 模型：35B 参数全部参与每次推理。以 FP16 精度计算，仅加载模型就需要 70GB+ 显存。量化到 Q4 也需要约 20GB。普通消费级显卡根本扛不住。

MoE 模型：35B 参数被分成256 个专家（Expert），外加一个路由网络（Router）。对于每个输入 token，路由器只挑选最相关的 9 个专家激活，其余专家处于"休眠"状态。实际激活参数量仅约 3B。

打个比方：
传统模型像一个 35 人的公司，无论什么任务所有人都得参与——写一行代码也要 35 个人开会。
MoE 模型像一个 35 人的专家团队，收到任务后，“项目经理”（路由器）快速判断任务类型，只派 2-3 个最擅长的人去干。

所以 Qwen3.6-35B-A3B 量化后只需要 6-20GB 显存，跑起来的速度接近 3B 模型，但输出质量接近 35B 模型。这不是参数注水，这是架构效率的革命。

2.3 与其他本地模型的对比

模型	架构	总参数量	激活参数	6G显存可跑	SWE-bench
Qwen3.6-35B-A3B	MoE	35B	3B	✅ (IQ2_M)	73.4%
Qwen2.5-32B	Dense	32B	32B	❌	-
Llama 3.1-8B	Dense	8B	8B	✅ (Q4)	~25%
Gemma 4-31B	Dense	31B	31B	❌	52.0%
DeepSeek-V2-Lite	MoE	16B	2.4B	✅	-

可以看到，在 6G 显存能跑的模型中，Qwen3.6-35B-A3B 是知识密度最高的选择。它用 MoE 架构打破了"显存大小决定模型大小"的物理限制。

三、前提条件：你的电脑能跑吗？

配置项	最低要求	推荐配置
操作系统	Windows 10/11 64位	Windows 11 64位
显卡显存	6GB	8-12GB
系统内存	16GB	32GB
磁盘空间	25GB	40GB+（SSD）
显卡类型	NVIDIA/AMD/Intel 独显	NVIDIA RTX 30/40 系列

**⚠️ 注意：**纯 CPU 也能跑，但速度会慢很多。以 IQ2_M 量化为例，CPU 模式下约 1-2 token/s，GPU 加速可达 10-30 token/s。强烈建议使用支持 CUDA 的 NVIDIA 显卡。

四、阶段一：下载 llama.cpp——本地推理引擎

第一步：选择正确版本

打开 llama.cpp Releases，找最新版本（本文写作时最新为 b9326）。

你的显卡	下载文件
NVIDIA RTX 30/40 系列	`llama-b9326-bin-win-cuda-12.4-x64.zip`
AMD RX 系列	`llama-b9326-bin-win-hip-radeon-x64.zip`
Intel Arc	`llama-b9326-bin-win-vulkan-x64.zip`
没有独显	`llama-b9326-bin-win-cpu-x64.zip`

**NVIDIA 用户注意：**除了主包，还要下载cudart-llama-bin-win-cuda-12.4-x64.zip，它包含 CUDA 运行时 DLL，缺失会导致启动报错。

第二步：解压与目录准备

⚠️ 铁律：路径不能有中文。llama.cpp 对中文路径支持不佳，解压到中文目录会报各种莫名其妙的错误。

将压缩包解压到纯英文路径，例如D:\llama-cpp或C:\llama。

CUDA 用户：把 DLL 包的内容也解压到同一目录（覆盖相同文件即可）。

新建一个models子目录：

D:\llama-cpp\ ├── llama-server.exe ← 主程序（这是我们要用的） ├── llama-cli.exe ← 命令行推理工具 ├── llama-quantize.exe ← 量化工具 ├── models\ ← 放模型文件 │ ├── Qwen3.6-35B-A3B-Q4_K_M.gguf │ └── mmproj-Qwen3.6-35B-A3B-f16.gguf └── *.dll (CUDA DLLs)

💡 科普：llama.cpp 是什么？
llama.cpp 是一个纯 C/C++ 实现的大模型推理引擎，由社区开发者 @ggerganov 创建。它不依赖 Python、PyTorch 等重型框架，只需一个 exe 就能跑大模型。它支持 GGUF 格式（一种高效的模型量化格式），自带 K-Quants 量化算法，能将模型从 FP16 压缩到 2-8 bit，同时尽量保持精度。它还内置了 HTTP 服务器（llama-server），提供兼容 OpenAI API 的接口，让任何支持 OpenAI SDK 的工具都能接入。

五、阶段二：下载模型——选择合适的量化等级

第三步：理解 GGUF 量化

GGUF 是 llama.cpp 团队开发的模型文件格式。简单说，它将模型权重从原始的 FP32/FP16 压缩到更低的精度。就好像把一张超高分辨率照片从 RAW 格式压缩成 JPEG——文件小了，但人眼看不出太大差别。

在 HuggingFace 搜索Qwen3.6-35B-A3B GGUF，推荐从 bartowski 或 unsloth 的仓库下载，他们是 GGUF 格式的主要贡献者，量化质量有保障。

显存	推荐量化	文件大小	系统内存	推理速度	说明
24GB (4090)	Q4_K_M	~21GB	16GB+	~130 tok/s	完全GPU，极致速度
12-16GB	IQ4_XS	~19GB	32GB+	~40-60 tok/s	分层加载，部分走内存
8GB	Q3_K_M / IQ4_NL	~16GB	32GB+	~15-30 tok/s	大部分走内存
6GB	IQ2_M	~11GB	16GB+	~8-15 tok/s	几乎全走内存，GPU仅辅助

量化级别说明：

Q4_K_M
：4-bit K-quants 的中间版本，精度和压缩率的最佳平衡点，推荐显存充足时使用
Q3_K_M
：3-bit K-quants，牺牲少量精度换取更小体积
IQ2_M
：2-bit 工业量化，压缩率最高但精度损失最大，是 6G 显存的"救命稻草"

**还要下载这个文件：**想要多模态看图功能，还必须下载对应的mmproj投影文件（约 1.3GB）。这个文件负责将视觉编码器的输出"投影"到语言模型的嵌入空间，让 LLM 能"看懂"图片。没有它，上传按钮会灰色不可点击。

全部放进models\目录。

💡 为何量化版本的模型文件比原始参数小这么多？
原始 FP16 精度：35B × 2 bytes = 70GB
Q4_K_M 量化后：35B × 0.5 bytes ≈ 17.5GB（加上 overhead 约 21GB）
IQ2_M 量化后：35B × 0.25 bytes ≈ 8.75GB（加上 overhead 约 11GB）
这就是量化的魔力——用 15%-30% 的精度损失，换来 4-8 倍的显存节省。

六、阶段三：启动模型——让大模型跑起来

第四步：一条命令启动

在D:\llama-cpp\目录打开 PowerShell（Shift + 右键空白处 → 在此处打开 PowerShell）。

纯文本对话（不需要看图）：

.\llama-server.exe -m “models\Qwen3.6-35B-A3B-Q4_K_M.gguf” -ngl 999 -c 32768 -n 8192 --jinja --port 8080

多模态（支持看图）：

.\llama-server.exe -m “models\Qwen3.6-35B-A3B-Q4_K_M.gguf” --mmproj “models\mmproj-Qwen3.6-35B-A3B-f16.gguf” -ngl 999 -c 32768 -n 8192 --jinja --port 8080

6G 显存用户（用 IQ2_M，缩小 context）：

.\llama-server.exe -m “models\Qwen3.6-35B-A3B-IQ2_M.gguf” --mmproj “models\mmproj-Qwen3.6-35B-A3B-f16.gguf” -ngl 999 -c 8192 -n 4096 --jinja --port 8080

参数详解：

-m
：模型文件路径
--mmproj
：多模态投影文件路径。不加就不能看图
-ngl 999
：尽量把模型层卸载到 GPU 显存。999 是"能放就放"，放不下的自动走系统内存
-c
：上下文长度（context size）。8192 ≈ 6000 字中文。显存小就设小一点
-n
：最大生成长度（max tokens）。4096 ≈ 3000 字中文
--jinja
：Qwen3.6 必须加这个参数。它启用 Jinja2 模板引擎来渲染聊天模板。不加会出现回复异常、格式错乱、无限重复等问题
--port
：HTTP 服务端口，默认 8080

看到这行输出就成功了：

main: server is listening on http://127.0.0.1:8080

浏览器打开 http://localhost:8080。你就能看到一个完整的聊天界面了。

第五步：一键启动脚本

每次敲命令太烦。新建一个启动模型.cmd文件，粘贴以下内容：

@echo off chcp 65001 >nul cd /d "%~dp0" echo ============================================= echo Qwen3.6-35B-A3B 本地大模型启动器 echo ============================================= echo. echo [1] Q4_K_M（24G 显存推荐，高速） echo [2] IQ4_NL（8-12G 显存，均衡） echo [3] IQ2_M（6G 显存，省显存模式） echo [4] 自定义模型文件 echo. set /p choice=请输入数字 [1-4]： if "%choice%"=="1" set "MODEL=Qwen3.6-35B-A3B-Q4_K_M.gguf"& set "CTX=-c 32768 -n 8192" if "%choice%"=="2" set "MODEL=Qwen3.6-35B-A3B-IQ4_NL.gguf"& set "CTX=-c 32768 -n 8192" if "%choice%"=="3" set "MODEL=Qwen3.6-35B-A3B-IQ2_M.gguf"& set "CTX=-c 8192 -n 4096" .\llama-server.exe -m "models\%MODEL%" -ngl 999 %CTX% --jinja --host 127.0.0.1 --port 8080 pause

放在D:\llama-cpp\目录，双击运行即可。

七、阶段四：接入 Hermes Agent——你的本地 AI 助手

第六步：安装 Hermes Agent

Hermes Agent 是一个开源的 AI Agent 框架，支持本地部署。它能让大模型自动规划任务、调用工具、执行代码。

pipx install hermes-agent

💡 pipx 是什么？
pipx 是一个专门用于安装 Python 命令行工具的包管理器。它会为每个工具创建独立的虚拟环境，避免依赖冲突。如果你还没安装 pipx，先运行：python -m pip install pipx

第七步：配置连接本地模型

hermes model

选择Custom endpoint，然后填写：

Base URL：http://127.0.0.1:8080/v1
API Key：
任意值或留空
Model：
留空即可

验证配置：在终端输入hermes，然后发一条消息。如果 Agent 正常回复，同时 llama-server 窗口有请求日志，就说明全部搞定。

第八步：Hermes Agent 能做什么？

接入后，你的本地模型不再只是"聊天机器人"，而是真正能干活的 AI 助手：

自动执行任务：
“帮我写一个 Python 脚本，读取当前目录下所有 CSV 文件并合并”
调用工具：
它可以搜索文件、运行命令、操作 API
自主规划：
复杂任务可拆解为多个步骤逐步执行
代码生成：
生成代码并自动运行调试
图片分析：
上传截图让它分析问题、提取文字

八、拓展应用：你的电脑 = AI 基础设施

跑起来之后，你的电脑就变成了一台完整的 AI 服务器，远超"聊天"的范畴：

8.1 当 OpenAI API 的平替

任何支持 OpenAI SDK 的工具，只要把base_url改成http://localhost:8080/v1，就能直接使用本地模型。举例：

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed" ) response = client.chat.completions.create( model="not-needed", # llama.cpp 会自动使用已加载的模型 messages=[ {"role": "system", "content": "你是一个AI编程助手"}, {"role": "user", "content": "用Python写一个冒泡排序"} ], max_tokens=2048, temperature=0.7 ) print(response.choices[0].message.content)

8.2 接入本地知识库

结合 LangChain 或 LlamaIndex，喂入你的私有文档，构建完全本地运行的 RAG 系统：

pip install langchain langchain-community chromadb # 示例：用本地模型做文档问答 from langchain_community.llms import LlamaCpp from langchain.chains import RetrievalQA from langchain_community.vectorstores import Chroma # ... 你的文档全部本地处理，数据不出本机

8.3 作为 IDE 的 AI 插件后端

在 Continue.dev 或 Tabby 等代码补全工具中，将 API 端点指向本机，让 AI 辅助编程：

Continue.dev 配置"apiBase": "http://localhost:8080"
代码审查、重构建议、测试生成——全部本地完成

九、常见坑与排查指南

症状	原因	解决方案
启动报错`file not found`	路径有中文或模型文件名不对	检查路径纯英文，确认文件确实在 models 目录下
`error loading model`	GGUF 文件损坏或未下载完整	重新下载，检查文件大小是否与 HuggingFace 标注一致
回复异常、无限重复	启动时没加`--jinja`	加上`--jinja`参数重启
上传图片按钮灰色	没下载 mmproj 文件	下载 mmproj 文件，启动时加`--mmproj`参数
`missing DLL`错误	CUDA DLL 缺失	下载 cudart 包，DLL 放到同一目录
显存爆了(OOM)	Context 太大或量化等级太高	减小`-c`或换更低的量化（Q3→IQ2）
模型文件只有几十KB	HuggingFace 下载受限	用`curl -I URL`验证链接，或换镜像源
速度极慢（< 2 tok/s）	没有 GPU 加速或`-ngl`太小	确认`-ngl 999`参数开启，检查是否使用 CUDA 版本
Hermes Agent 连不上	Base URL 配置错误	确认 llama-server 已启动且端口正确

十、性能调优：让你的模型跑得更快

10.1 关键参数调优建议

-ngl调优：
对于 6G 显存，-ngl 20到-ngl 30可能比-ngl 999更快，因为减少了显存-内存之间的频繁数据交换。建议从-ngl 999开始，然后逐步调低，找到最佳吞吐量点。
Thread 数：
加-t 6到-t 8指定 CPU 线程数，充分发挥多核性能。
Batch size：-ub 1024
可以充分利用 GPU 并行计算能力。
Flash Attention：
加--flash-attn可以显著降低显存占用，特别是长上下文场景。

优化版启动命令：

.\llama-server.exe -m "models\Qwen3.6-35B-A3B-IQ2_M.gguf" --mmproj "models\mmproj-Qwen3.6-35B-A3B-f16.gguf" -ngl 28 -c 8192 -n 4096 -t 8 -ub 1024 --flash-attn --jinja --port 8080

10.2 不同配置的预期性能

配置组合	量化	推理速度	首 token 延迟	体验评分
RTX 4090 + 64GB 内存	Q4_K_M	~130 tok/s	< 0.5s	⭐⭐⭐⭐⭐
RTX 3060 12GB + 32GB	IQ4_XS	~40-60 tok/s	~1s	⭐⭐⭐⭐
RTX 2060 6GB + 32GB	IQ2_M	~8-15 tok/s	~2-3s	⭐⭐⭐
纯 CPU (i7-13700 + 32GB)	IQ2_M	~1-3 tok/s	~5-10s	⭐⭐

**💡 体验建议：**如果能达到 10 tok/s 以上，普通对话已经足够流畅。6-8 tok/s 可以接受但稍有等待感。低于 5 tok/s 更适合做批量处理而非实时对话。

十一、MoE 架构的深层理解

最后，让我们深入理解一下 MoE 到底是怎么回事。毕竟，你正在使用的这个模型，就是靠这种架构才得以在 6G 显存上运行的。

11.1 MoE 的工作流程

每个 MoE 层包含三部分：

共享专家（Shared Expert）：
所有 token 都必须经过，处理通用知识
路由专家（Routed Experts）：
256 个专家，各有专长
路由器（Router）：
一个轻量级网络，决定每个 token 应该由哪些专家处理

当一个 token 进入 MoE 层：

路由器给 256 个专家打分
选择得分最高的 9 个专家（top-9 routing）
只有这 9 个专家 + 1 个共享专家参与计算
输出加权合并

这就是"35B 总参，3B 激活"的来源：256 个专家中只激活 9 个，加上共享专家的参数，实际每 token 只跑约 3B 参数。

11.2 MoE 的负载均衡

MoE 面临的一个核心挑战是负载均衡：如果路由器总是派任务给同一个专家，其他专家就"饿死"了。这会导致模型部分参数从未被训练，损害容量。

Qwen3.6 的解决方案包括：

辅助损失（Auxiliary Loss）：
在训练时惩罚不均衡的路由分配
专家容量限制：
每个专家的 token 处理数有上限
路由器正则化：
鼓励更均匀的专家选择

这也是为什么 MoE 模型在推理时虽然效率极高，但训练时需要更多技巧。好在——我们只用推理，不用训练。

11.3 MoE 与量化：双重压缩的艺术

Qwen3.6-35B-A3B 能在 6G 显存上运行，其实用到了两层压缩：

MoE 层
：推理时只激活 ~9% 的参数（35B → 3B）
量化
：再将每个参数从 16-bit 压缩到 2-bit（3B × 2 bytes → 3B × 0.25 bytes = 0.75GB）

实际显存占用还包括 KV Cache（约 2-4GB）、中间激活值、mmproj 等 overhead，所以最终 6G 显存刚好能跑起来。如果你仔细算就会发现：不是 MoE 模型太小，而是压缩技术太强。

十二、本地 AI 时代的意义

Qwen3.6-35B-A3B 的出现，加上 llama.cpp + Hermes Agent 的工具链，意味着：

AI 不再是云端特权。
一台普通电脑就能跑起能打的大模型
数据主权回归用户。
敏感数据不必上传第三方 API
零边际成本。
没有 token 计费，没有月费，想用多少用多少
可定制、可离线。
断网也能用，没有审查限制

以前我们需要 24GB 显存才能流畅运行的 7B 模型，现在已经可以在 6GB 显存上跑 35B 模型。这不仅仅是效率的提升，更是本地 AI 从"玩具"向"工具"跨越的标志性节点。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

编程学习技术分享实战经验

资讯详情

本地部署AI Agent，6G显存跑Qwen3.6-35B-A3B 从入门到实战全流程

一、先看最终效果：你的个人 AI 基础设施

二、为什么是这个模型？MoE 架构详解

2.1 35B 总参数，只激活 3B

2.2 MoE 不是"偷工减料"，是架构创新

2.3 与其他本地模型的对比

三、前提条件：你的电脑能跑吗？

四、阶段一：下载 llama.cpp——本地推理引擎

第一步：选择正确版本

第二步：解压与目录准备

五、阶段二：下载模型——选择合适的量化等级

第三步：理解 GGUF 量化

六、阶段三：启动模型——让大模型跑起来

第四步：一条命令启动

第五步：一键启动脚本

七、阶段四：接入 Hermes Agent——你的本地 AI 助手

第六步：安装 Hermes Agent

第七步：配置连接本地模型

第八步：Hermes Agent 能做什么？

八、拓展应用：你的电脑 = AI 基础设施

8.1 当 OpenAI API 的平替

8.2 接入本地知识库

8.3 作为 IDE 的 AI 插件后端

九、常见坑与排查指南

十、性能调优：让你的模型跑得更快

10.1 关键参数调优建议

10.2 不同配置的预期性能

十一、MoE 架构的深层理解

11.1 MoE 的工作流程

11.2 MoE 的负载均衡

11.3 MoE 与量化：双重压缩的艺术

十二、本地 AI 时代的意义

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

最新新闻

日新闻

周新闻

月新闻

资讯详情

本地部署AI Agent，6G显存跑Qwen3.6-35B-A3B 从入门到实战全流程

一、先看最终效果：你的个人 AI 基础设施

二、为什么是这个模型？MoE 架构详解

2.1 35B 总参数，只激活 3B

2.2 MoE 不是"偷工减料"，是架构创新

2.3 与其他本地模型的对比

三、前提条件：你的电脑能跑吗？

四、阶段一：下载 llama.cpp——本地推理引擎

第一步：选择正确版本

第二步：解压与目录准备

五、阶段二：下载模型——选择合适的量化等级

第三步：理解 GGUF 量化

六、阶段三：启动模型——让大模型跑起来

第四步：一条命令启动

第五步：一键启动脚本

七、阶段四：接入 Hermes Agent——你的本地 AI 助手

第六步：安装 Hermes Agent

第七步：配置连接本地模型

第八步：Hermes Agent 能做什么？

八、拓展应用：你的电脑 = AI 基础设施

8.1 当 OpenAI API 的平替

8.2 接入本地知识库

8.3 作为 IDE 的 AI 插件后端

九、常见坑与排查指南

十、性能调优：让你的模型跑得更快

10.1 关键参数调优建议

10.2 不同配置的预期性能

十一、MoE 架构的深层理解

11.1 MoE 的工作流程

11.2 MoE 的负载均衡

11.3 MoE 与量化：双重压缩的艺术

十二、本地 AI 时代的意义

学AI大模型的正确顺序，千万不要搞错了

相关新闻

最新新闻

日新闻

周新闻

月新闻