WorkBuddy + 本地 ComfyUI 完全使用手册:从出图到视频生成

📅 2026/7/4 0:32:12 👁️ 阅读次数 📝 编程学习
WorkBuddy + 本地 ComfyUI 完全使用手册:从出图到视频生成

WorkBuddy + 本地 ComfyUI 完全使用手册:从出图到视频生成

在本地 MCP 链路跑通后,WorkBuddy 能做什么?怎么做?本文用真实测试案例告诉你——从文生图、文生视频到工作流调用、多阶段管道,每个场景都有可直接复制的提示词和参数。

本系列持续更新中……

Comfy MCP 公测:把 Claude、Cursor、CodeX、Hermes 和 WorkBuddy 变成你的创意技术专家

Comfy Cloud MCP Server 抢先体验申请图文教程

QClaw 配置 Comfy Cloud MCP,只需简单几步

WorkBuddy 接入 Comfy Cloud MCP 完整实录:从 DNS 污染到 31 个工具全部启用

WorkBuddy + 本地 Comfy MCP 实战:用自然语言调生成你的第一张 AI 图片

WorkBuddy 连接本地 ComfyUI:从零到出图的保姆级教程

WorkBuddy + 本地 ComfyUI Wan2.1 文生视频实战:从连续报错到成功出片的完整踩坑记录


目录

  • 一、能力总览
  • 二、使用前的准备
  • 三、场景一:文生图(SDXL)
  • 四、场景二:文生视频(Wan2.1 t2v)
  • 五、场景三:调用已有工作流
  • 六、场景四:多阶段管道
  • 七、场景五:图生视频(Wan2.2 Animate)
  • 八、自然语言指令速查表
  • 九、参数调优指南
  • 十、常见问题与避坑
  • 十一、视频生成工作流 JSON 模板

一、能力总览

WorkBuddy 连接本地 ComfyUI 后,你拥有以下能力:

能力说明典型耗时
文生图文字描述 → 图片(SDXL/SD3.5/Flux 等)8-30 秒
文生视频文字描述 → 视频(Wan2.1 t2v)2-5 分钟
图生视频图片 + 提示词 → 视频(Wan2.2 Animate)5-15 分钟
图片放大ESRGAN 超分辨率(2x/4x)5-15 秒
背景移除BiRefNet 智能抠图10-30 秒
工作流调用加载已保存的工作流并执行取决于工作流
工作流分析可视化工作流结构即时
模型管理列出/搜索本地模型即时

硬件基础:RTX 3090 24GB + 320 个自定义节点 + 57 个 checkpoint + 177 个 LoRA + 45 个 ControlNet


二、使用前的准备

2.1 确保两个进程都在运行

bash

# 终端 1:启动 ComfyUI(保持窗口开着) cd H:\PythonProjects3\Win_ComfyUI python main.py --enable-manager --enable-assets --enable-triton-backend --async-offload --use-flash-attention --enable-dynamic-vram # 终端 2:启动 MCP 服务器(保持窗口开着) npx -y comfyui-mcp --http --port 9100

2.2 在 WorkBuddy 中确认连接器状态

  • 打开 WorkBuddy → 右上角连接器管理
  • comfyui-local开关应为绿色(已信任)
  • 显示 113 个工具已启用

2.3 验证连接

直接对 WorkBuddy 说:

"检查一下本地 ComfyUI 的系统状态"

WorkBuddy 会调用get_system_stats工具,返回 GPU 型号、显存、队列状态等信息。


三、场景一:文生图(SDXL)

3.1 基本用法

直接用自然语言告诉 WorkBuddy:

"用本地 ComfyUI 生成一张赛博朋克城市的图片,霓虹灯,雨天,1024x1024"

3.2 推荐参数组合

风格模型采样器步数CFG调度器
快速测试sdxl_lightning_4stepeuler41.0normal
标准生成sd_xl_base_1.0dpmpp_2m207.5karras
高质量sd_xl_base_1.0dpmpp_2m_sde307.0karras
动漫风格(你的动漫 SDXL 模型)euler_ancestral257.0normal

3.3 实测案例

提示词

masterpiece, best quality, a red vintage sports car parked on a coastal highway at sunset, ocean waves in background, golden hour lighting, cinematic, highly detailed, 8k uhd

参数:sd_xl_base_1.0 / dpmpp_2m / karras / 20 步 / CFG 7.5 / 1024x1024

结果:8 秒出图,质量清晰

3.4 ⚠️ Lightning 模型避坑

SDXL Lightning 4-step 模型必须使用以下参数,否则出白图:

采样器:euler(不是 dpmpp_2m_sde!) 调度器:normal(不是 karras!) CFG:1.0(不是 7.5!) 步数:4


四、场景二:文生视频(Wan2.1 t2v)

4.1 基本信息

项目
模型wan2.1_t2v_1.3B_fp16.safetensors
文本编码器UMT5-XXL bf16
VAEWan2_1_VAE_bf16.safetensors
默认分辨率832×480
默认帧数81 帧 @ 20fps ≈ 4 秒
采样步数20 步
RTX 3090 生成时间约 3 分钟

4.2 使用方法

直接告诉 WorkBuddy:

"用 Wan 生成一段猫咪追球的 4 秒视频"

或者更具体:

"用本地 ComfyUI 的 Wan2.1 t2v 模型生成一段 4 秒视频:一只橘猫在花园里追红色小球,阳光明媚,动态运动,832x480 分辨率"

4.3 实测案例

提示词

a cute orange cat chasing a red ball across a green garden lawn, running playfully, dynamic motion, sunny day, vivid colors, 4k, high quality

负面提示词

low quality, blurry, deformed, ugly, watermark, text, static, no motion, worst quality, jpeg artifacts

参数

  • 分辨率:832×480
  • 帧数:81(@ 20fps = ~4 秒)
  • 采样器:euler
  • 步数:20
  • CFG:3.5
  • Shift:5.0
  • Seed:42

结果:174 秒生成,输出 MP4 文件 1.3MB

4.4 视频参数调整

需求修改
更长视频num_frames改为 121(6 秒)/ 161(8 秒),帧数必须是 4 的倍数+1
更高分辨率width/height改为 1280×720(显存需求大增)
更快生成steps改为 15(质量略降)
更高质量steps改为 30(时间翻倍)
不同风格修改positive_prompt
固定种子保持seed不变可复现结果

4.5 工作流节点结构

LoadWanVideoT5TextEncoder ──→ WanVideoTextEncode ──→ WanVideoSampler ──→ WanVideoDecode ──→ VHS_VideoCombine ↑ ↑ WanVideoModelLoader ─────────────────────────────────┘ │ WanVideoEmptyEmbeds ─────────────────────────────────→ ┘ │ WanVideoVAELoader ──────────────────────────────────────────────────────→┘

节点说明

节点作用关键参数
LoadWanVideoT5TextEncoder加载 UMT5-XXL 文本编码器model_name, precision, load_device
WanVideoModelLoader加载视频扩散模型model, base_precision, quantization
WanVideoTextEncode编码文本提示词positive_prompt, negative_prompt
WanVideoEmptyEmbeds创建空图像嵌入(文生视频用)width, height, num_frames
WanVideoVAELoader加载 VAE 解码器model_name, precision
WanVideoSampler核心采样器steps, cfg, shift, seed, scheduler
WanVideoDecode将潜空间解码为视频帧enable_vae_tiling, tile_x/y
VHS_VideoCombine合成视频文件frame_rate, format

五、场景三:调用已有工作流

5.1 查看已有工作流

你本地保存了 68 个工作流。告诉 WorkBuddy:

"列出我本地 ComfyUI 的所有视频相关工作流"

5.2 可用工作流示例

工作流文件功能
video_wan2_2_14B_animate.jsonWan2.2 动作迁移视频
Wan-Animate【动作迁移】换人-高质量+高细节.json高质量换人动画
Kandinsky 5.0 Video Lite 图生视频video_kandinsky5_i2v.jsonKandinsky 图生视频
image_qwen_image_edit_2509.json千问图片编辑
flux_kontext_dev_basic.jsonFlux 上下文编辑
whisper_video_subtitles_workflow.json视频自动字幕
扩图flux_fill_outpaint.json图片扩边

5.3 调用方式

"运行我的 Wan2.2 Animate 工作流,用这张图片作为输入"

WorkBuddy 会:

  1. list_workflows— 找到工作流
  2. analyze_workflow— 分析参数需求
  3. 提示你提供必要输入(如参考图片、提示词)
  4. enqueue_workflow— 提交执行
  5. 轮询等待完成

六、场景四:多阶段管道

6.1 概念

把多个生成阶段串起来,前一步的输出作为后一步的输入。

6.2 示例管道

"生成一只猫的图 → 放大 4 倍 → 抠去背景"

WorkBuddy 会编排:

阶段 1: generate_image("a cute cat") → output/cat.png ↓ 阶段 2: upscale_image(cat.png, scale=4) → output/cat_4x.png ↓ 阶段 3: remove_background(cat_4x.png) → output/cat_cutout.png

6.3 更复杂的管道

"生成一只猫 → 用 Wan2.2 Animate 做成视频 → 加上字幕"

阶段 1: generate_image → cat.png 阶段 2: animate_image(cat.png) → cat.mp4 阶段 3: add_subtitles(cat.mp4, "A cat playing") → cat_subtitled.mp4

七、场景五:图生视频(Wan2.2 Animate)

7.1 前提条件

你有以下 Wan2.2 模型:

  • Wan2_2-Animate-14B_fp8_e4m3fn_scaled_KJ.safetensors— 动作迁移
  • Wan2.2-Animate-14B-Q4_K_S.gguf— GGUF 量化版
  • Wan2.2-Fun-A14B-Control_HighNoise/LowNoise-Q5_K_S.gguf— 控制生成

7.2 使用方式

Wan2.2 Animate 需要参考视频来提取动作,然后将动作迁移到新生成的角色上。

"用 Wan2.2 Animate 把这个跳舞视频的动作迁移到一只猫身上"

7.3 注意事项

  • Wan2.2 Animate 是 14B 模型,RTX 3090 24GB 需要使用 block swap
  • 建议使用 GGUF 量化版(Q4_K_S)以减少显存占用
  • 参考视频建议 5-10 秒,分辨率不超过 720p
  • 生成时间约 10-30 分钟(取决于帧数和分辨率)

八、自然语言指令速查表

8.1 图片生成

说法WorkBuddy 会做什么
"生成一张[描述]的图片"选择合适模型,构建 txt2img 工作流
"用 SDXL 生成[描述],1024x1024"指定模型和分辨率
"用 Flux 生成[描述]"切换到 Flux 模型
"换一个种子重新生成"修改 seed 值重新提交
"把这张图放大 4 倍"使用 ESRGAN 放大
"去掉这张图的背景"使用 BiRefNet 抠图

8.2 视频生成

说法WorkBuddy 会做什么
"用 Wan 生成一段[描述]的 4 秒视频"构建 Wan2.1 t2v 工作流
"生成一段更长的视频(8 秒)"增加 num_frames 到 161
"提高视频分辨率到 720p"修改 width/height
"用我的 Wan2.2 Animate 工作流"加载已有工作流执行

8.3 工作流操作

说法WorkBuddy 会做什么
"列出我的所有工作流"调用 list_workflows
"分析我的换头工作流"调用 analyze_workflow + 可视化
"检查这个工作流用的模型"分析节点参数
"修改这个工作流的采样步数为 30"调用 modify_workflow

8.4 系统管理

说法WorkBuddy 会做什么
"检查 ComfyUI 状态"调用 get_system_stats
"查看当前队列"调用 get_queue
"列出本地所有模型"调用 list_local_models
"取消正在运行的任务"调用 cancel_job

九、参数调优指南

9.1 图片生成参数

参数作用推荐值
steps采样步数,越多越精细但越慢20-30(标准)/ 4(Lightning)
cfg提示词权重,越高越忠实提示词7-8(标准)/ 1.0(Lightning)
sampler_name采样算法dpmpp_2m(通用)/ euler(Lightning)
scheduler噪声调度karras(通用)/ normal(Lightning)
seed随机种子任意整数,固定可复现
denoise去噪强度1.0(完整生成)/ 0.3-0.7(图生图)

9.2 视频生成参数

参数作用推荐值
num_frames视频帧数(4n+1)81(4秒)/ 121(6秒)/ 161(8秒)
frame_rate帧率16-24
width/height分辨率832×480(快速)/ 1280×720(高清)
steps采样步数15-25
cfg提示词权重3.0-5.0
shift噪声偏移3.0-7.0
scheduler采样器euler / unipc

9.3 显存优化

RTX 3090 24GB 的显存管理策略:

策略设置适用场景
T5 编码器卸载load_device: offload_device所有视频生成
VAE 分块解码enable_vae_tiling: True高分辨率视频
Block Swapblocks_to_swap: 20-3514B 大模型
模型精度bf16fp8_e4m3fn大模型省显存
force_offloadTrue采样后释放显存

十、常见问题与避坑

10.1 视频生成相关

Q: T5 编码器报错 "fp8 scaled is not supported"

A:LoadWanVideoT5TextEncoder不支持 fp8 scaled 模型。使用 bf16 版本的 UMT5-XXL。

Q: VAE 加载报错 "missing precision argument"

A:WanVideoVAELoader必须显式提供precision参数(如bf16),即使文档标记为 Optional。

Q: 生成时间太长

A: 1.3B 模型 81 帧 20 步约 3 分钟。如需更快:减少步数到 15、降低分辨率到 832×480、减少帧数到 65。

Q: 视频质量模糊

A: 增加 steps 到 25-30,提高 CFG 到 4.0-5.0,使用更好的提示词描述。

10.2 图片生成相关

Q: Lightning 模型出白图

A: 必须用euler + normal + CFG 1.0 + 4 steps。不能用 dpmpp_2m_sde 或 karras。

Q: 中文提示词效果差

A: ComfyUI 的 CLIP/T5 编码器主要训练于英文数据。建议用英文提示词。

10.3 连接相关

Q: WorkBuddy 调用 MCP 工具失败

A: 重启 MCP 服务器后,WorkBuddy 需要重新连接。去连接器页面关掉再开comfyui-local

Q: EADDRINUSE 端口占用

A:netstat -ano | findstr :9100找到 PID,taskkill /PID <PID> /F结束,再重启。


十一、视频生成工作流 JSON 模板

以下是实测成功的完整 Wan2.1 t2v 文生视频工作流 JSON,可直接通过 ComfyUI API 提交:

json

{ "1": { "class_type": "LoadWanVideoT5TextEncoder", "inputs": { "model_name": "models_eddy大佬_t5_umt5-xxl-enc-bf16_fully_uncensored.safetensors", "precision": "bf16", "load_device": "offload_device" } }, "2": { "class_type": "WanVideoModelLoader", "inputs": { "model": "wan2.1_t2v_1.3B_fp16.safetensors", "base_precision": "bf16", "quantization": "disabled", "load_device": "main_device" } }, "3": { "class_type": "WanVideoTextEncode", "inputs": { "positive_prompt": "YOUR_POSITIVE_PROMPT_HERE", "negative_prompt": "low quality, blurry, deformed, ugly, watermark, text, static, no motion, worst quality", "t5": ["1", 0], "force_offload": true, "model_to_offload": ["2", 0] } }, "4": { "class_type": "WanVideoEmptyEmbeds", "inputs": { "width": 832, "height": 480, "num_frames": 81 } }, "5": { "class_type": "WanVideoVAELoader", "inputs": { "model_name": "Wan2_1_VAE_bf16.safetensors", "precision": "bf16" } }, "6": { "class_type": "WanVideoSampler", "inputs": { "model": ["2", 0], "image_embeds": ["4", 0], "text_embeds": ["3", 0], "steps": 20, "cfg": 3.5, "shift": 5.0, "seed": 42, "force_offload": true, "scheduler": "euler", "riflex_freq_index": 0 } }, "7": { "class_type": "WanVideoDecode", "inputs": { "vae": ["5", 0], "samples": ["6", 0], "enable_vae_tiling": true, "tile_x": 256, "tile_y": 256, "tile_stride_x": 128, "tile_stride_y": 128 } }, "8": { "class_type": "VHS_VideoCombine", "inputs": { "images": ["7", 0], "frame_rate": 20, "loop_count": 0, "filename_prefix": "wan_video_output", "format": "video/h264-mp4", "pingpong": false, "save_output": true } } }

使用方法

  1. YOUR_POSITIVE_PROMPT_HERE替换为你的提示词
  2. 通过 ComfyUI API 提交:POSThttp://127.0.0.1:8188/prompt,body 为{"prompt": <上述JSON>}
  3. 轮询GEThttp://127.0.0.1:8188/history/{prompt_id} 等待完成
  4. 完成后视频保存在output/目录

附录:测试记录汇总

测试类型模型参数耗时结果
#1文生图sdxl_lightning_4stepdpmpp_2m_sde/karras/CFG1.5/4步8s白图(参数错误)
#2文生图sdxl_lightning_4stepeuler/normal/CFG1.0/4步6s成功(偏离提示词)
#3文生图sd_xl_base_1.0dpmpp_2m/karras/CFG7.5/20步8s成功
#4文生视频wan2.1_t2v_1.3Beuler/20步/CFG3.5/81帧174s成功

写在最后:本地 ComfyUI + WorkBuddy 的组合,让你在 Claude 封禁中国账号、Comfy Cloud MCP 不可用的情况下,依然拥有完整的 AI 图像/视频生成能力。零订阅费、完全离线、全隐私——你的 RTX 3090 就是最好的云端 GPU。