AI视频编辑自动化：基于文本转录与智能体协作的video-use实践指南

📅 2026/7/4 0:04:02 👁️ 阅读次数 📝 编程学习

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

在实际视频编辑工作中，最耗时的往往不是剪辑本身，而是处理大量原始素材、寻找合适的剪辑点、统一色调、添加字幕和动画，以及反复预览确认效果。传统工作流需要熟练操作专业软件，而 AI 驱动的自动化工具则试图理解你的意图，直接生成成品。video-use 正是这样一个项目，它不是一个带界面的软件，而是一套让 Claude Code 这类“编码智能体”能够理解并编辑视频的“技能”和工具链。

简单来说，video-use 将视频编辑抽象为一个由 AI 驱动的管道：你只需将原始视频素材放入一个文件夹，然后通过自然语言向 Claude Code 描述你的编辑意图（例如“把这些剪辑成一个产品发布视频”），AI 会分析音频转录、制定剪辑策略、生成剪辑决策列表，并最终调用 ffmpeg 等工具渲染输出final.mp4。整个过程强调“文本优先”和“自我评估”，AI 不“看”视频帧，而是“读”由音频转录生成的带精确时间戳的文本，仅在需要时生成关键时间点的视觉预览图进行决策校验。

本文面向希望将 AI 智能体融入创意工作流的开发者、视频创作者和技术爱好者。我们将从零开始，完整搭建 video-use 的运行环境，理解其核心工作流程，并通过一个实际案例演示如何用它处理一段口播视频。你将了解到如何配置 Claude Code、安装必要的依赖（如 ffmpeg）、设置 ElevenLabs API 以获取高质量转录，并最终掌握通过对话完成视频剪辑的完整流程。

1. 理解 video-use 的核心设计：为何“读”视频比“看”视频更高效

在深入安装和操作之前，必须先理解 video-use 解决视频编辑自动化问题的独特思路。传统上，让 AI 处理视频有两种极端：一种是完全基于规则（不灵活），另一种是让 AI 模型直接处理每一帧图像（计算量巨大且难以理解高级语义）。video-use 选择了一条折中且高效的路径。

1.1 两层理解模型：文本为主，视觉为辅

video-use 为 AI 智能体（如 Claude Code）构建了两层理解视频内容的数据模型。

第一层：音频转录层（始终加载）这是 AI 主要的“阅读”材料。video-use 会调用 ElevenLabs 的 Scribe API 对每个原始视频源进行语音识别。返回的结果不是简单的整段文本，而是包含以下关键信息的结构化数据：

词级时间戳：每个单词在视频中出现的精确起止时间（例如[002.52-005.36]）。
说话人分离：区分视频中不同的说话人（如S0,S1）。
音频事件标记：识别非语音声音，如(laughter),(applause),(sigh)。

所有这些转录信息会被压缩、整理，并打包成一个名为takes_packed.md的纯文本文件（通常只有约 12KB）。这个文件就是 AI 进行剪辑决策的“剧本”。AI 通过分析文本中的停顿（“umm”, “uh”）、重复、语句结构以及音频事件，就能精准地找到需要剪掉的冗余部分和理想的剪辑点。

第二层：视觉合成层（按需生成）纯文本无法判断视觉上的连贯性，例如镜头是否跳切、画面是否匹配。为此，video-use 提供了timeline_view功能。它不会导出所有帧，而是在 AI 需要做出关键决策时（例如，对某个静默片段是否该剪掉存疑，或需要对比两个备选镜头），动态生成一张特定时间范围的“快照”PNG 图片。这张图片通常包含：

关键帧胶片条：该时间段内等间隔抽取的几帧画面。
波形图：对应的音频波形，直观显示音量大小和静音区。
文字标签：在对应时间点上叠加显示转录的文本。

这种方式将海量的像素数据（30,000 帧 × 1500 tokens/帧 ≈ 4500 万 tokens）的噪声问题，转化为按需生成的少量高信息密度图片，极大地降低了 AI 的处理负担和上下文消耗。

1.2 自动化编辑管道与自我评估循环

video-use 的执行流程是一个严谨的管道，确保输出结果具备“生产就绪”的质量。

转录 (Transcribe) -> 打包 (Pack) -> AI 推理 (LLM Reasons) -> 生成编辑决策列表 (EDL) -> 渲染 (Render) -> 自我评估 (Self-Eval) │ └─ 发现问题？ -> 修复并重新渲染（最多3次）

转录与打包：将原始视频转为结构化的takes_packed.md文本。
AI 推理与确认：AI 分析文本，提出剪辑策略（如“删除所有‘嗯’、‘啊’等填充词，将片段 A、B、C 按此顺序拼接”），并等待用户确认。这是关键的人机交互点，你拥有最终决策权。
生成与渲染：AI 将确认后的策略转化为一个编辑决策列表，这是一个包含时间码、源文件、滤镜指令等信息的文件，随后调用 ffmpeg 执行渲染。
自我评估：渲染完成后，AI 不会直接给你看结果。它会自动对输出视频的每一个剪辑点调用timeline_view，检查是否有视觉跳跃、音频爆音、字幕错误等问题。如果发现问题，它会尝试自动修复并重新渲染，最多循环 3 次。只有通过自检的视频才会呈现给用户。

这种“提议-确认-执行-校验”的闭环，是 video-use 区别于简单脚本工具的核心，它保证了自动化输出的可靠性。

1.3 非协商的“生产规则”与艺术自由

video-use 内置了 12 条硬性规则，确保技术上的正确性。例如：

在任何剪辑点都必须添加 30 毫秒的音频淡入淡出，以防止“啪”的爆音。
自动对每个片段进行颜色校正（提供“温暖电影感”、“中性鲜明”等预设，也支持自定义 ffmpeg 滤镜链）。
以特定样式（默认是两词一组的全大写块）烧制硬字幕，且样式可完全定制。

在这些保证技术质量的规则之上，AI 拥有充分的艺术创作自由，去决定剪辑节奏、片段选择、转场等。这种“底线之上，自由发挥”的设计，平衡了自动化的一致性和创作的灵活性。

2. 环境准备与依赖安装：搭建智能体视频编辑工作台

要让 video-use 运转起来，需要准备一个能够运行 Claude Code（或其他兼容智能体）的环境，并安装必要的底层工具。以下步骤以 macOS/Linux 环境为例，Windows 用户可通过 WSL 或相应包管理器（如 Chocolatey）获得类似体验。

2.1 基础环境与智能体准备

首先，你需要一个能够执行 shell 命令的 AI 智能体。Claude Code 是官方推荐且测试最充分的。

安装 Claude Code：
- 访问 Claude 官网，根据指引下载并安装 Claude Code 桌面应用。
- 确保 Claude Code 已成功安装并可以启动。在终端输入claude命令应能启动交互会话。
验证 Python 环境： video-use 主要使用 Python 开发。推荐使用uv或pip进行包管理。确保系统已安装 Python 3.9+。
```
python3 --version # 应输出类似 Python 3.11.8 的信息
```

2.2 安装核心命令行工具：ffmpeg 与 yt-dlp

ffmpeg 是视频处理的基石，yt-dlp 用于处理网络视频源（可选但推荐）。

在 macOS 上使用 Homebrew 安装：
```
brew install ffmpeg brew install yt-dlp
```

在 Ubuntu/Debian 上使用 apt 安装：

sudo apt update sudo apt install ffmpeg sudo apt install yt-dlp

在 Windows 上（通过 Chocolatey）：

choco install ffmpeg choco install yt-dlp

安装后验证：

ffmpeg -version | head -n 1 # 应输出 ffmpeg 版本信息，如 `ffmpeg version 6.1.1` yt-dlp --version # 应输出 yt-dlp 版本号

注意：ffmpeg 的安装是强制要求，如果缺少它，后续的视频渲染步骤会完全失败。如果遇到编解码器问题，可能需要从源码编译或安装包含更多编解码器的版本（如brew install ffmpeg --with-...，具体选项视 Homebrew 版本而定）。

2.3 获取 ElevenLabs API 密钥

video-use 依赖 ElevenLabs 的 Scribe API 进行高精度、带时间戳的语音转录。这是其“文本优先”策略的关键。

访问 ElevenLabs 官网并注册/登录账号。
进入 API Keys 管理页面。
点击 “Create a new API key”，为其命名（例如video-use），然后复制生成的密钥字符串。

重要提示：ElevenLabs API 不是完全免费的，新用户有一定免费额度，超出后需按使用量付费。转录音频的费用取决于音频时长。请妥善保管你的 API Key，不要泄露。

2.4 安装与配置 video-use 技能

有两种方式将 video-use 安装到你的智能体环境中：全自动智能体安装和手动安装。推荐第一种，体验更流畅。

方法一：通过智能体自动安装（推荐）这是最符合项目理念的方式。在你的视频素材目录或任意位置，启动 Claude Code，然后将以下预设指令粘贴给它：

Set up https://github.com/browser-use/video-use for me. Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key — ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own — just tell me it's ready and wait for me to drop footage into a folder.

Claude Code 会按照指令：

克隆video-use仓库到本地（通常是~/Developer/video-use）。
创建符号链接，将技能注册到~/.claude/skills/video-use。
检查并提示你安装 ffmpeg 等依赖。
在需要时，提示你输入 ElevenLabs API Key。
完成所有配置。

你只需根据它的提示进行操作即可。

方法二：手动安装如果你希望更可控，可以手动执行以下步骤：

# 1. 克隆仓库 git clone https://github.com/browser-use/video-use ~/Developer/video-use # 2. 创建符号链接，将技能注册到 Claude Code ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # 如果是其他智能体，替换路径，例如 Codex： # ln -sfn ~/Developer/video-use ~/.codex/skills/video-use # 3. 进入目录并安装 Python 依赖 cd ~/Developer/video-use uv sync # 推荐使用 uv，速度更快 # 或者使用 pip # pip install -e . # 4. 配置 ElevenLabs API Key cp .env.example .env # 使用你喜欢的编辑器打开 .env 文件，填入 API Key # 将 `ELEVENLABS_API_KEY=your_api_key_here` 中的 `your_api_key_here` 替换为你的真实密钥。

完成以上任一方法后，你的环境就准备好了。可以通过在 Claude Code 中简单询问 “What video editing skills do you have?” 来验证技能是否加载成功。

3. 实战演练：使用 video-use 剪辑一段口播视频

现在，我们用一个实际的例子来走通整个流程。假设你有一段关于“AI 编程助手效率”的访谈原始素材（可能包含一些“嗯”、“啊”和重复的语句），你想将其剪辑成一个精炼的 60 秒观点视频。

3.1 准备原始素材与启动会话

组织素材：在本地创建一个项目文件夹，例如~/Videos/ai_interview_raw。将所有原始视频文件（如take1.mp4,take2.mov）放入此文件夹。确保视频格式是 ffmpeg 支持的常见格式（MP4, MOV 等）。
启动智能体：打开终端，导航到你的素材文件夹，并启动 Claude Code。
```
cd ~/Videos/ai_interview_raw claude
```
初始化项目：在 Claude Code 会话中，你可以先让它了解当前目录内容。
```
I have some raw interview footage in this directory. I want to use the video-use skill to edit it. Can you see the files here?
```
Claude Code 应该会列出目录中的视频文件，并确认 video-use 技能已就绪。

3.2 下达编辑指令与确认策略

现在，给出明确的编辑指令。指令越具体，AI 的理解和产出可能越符合预期。

edit these clips into a concise 60-second video highlighting the key points about AI programming assistant efficiency. Remove all filler words like 'um', 'ah', and false starts. Keep the tone professional and paced well. Use the warm cinematic color grade. Burn in subtitles in the default style.

AI 接收到指令后，会启动 video-use 技能的工作流：

转录：它会首先调用 ElevenLabs API 对你的所有视频进行转录。这可能需要一些时间，取决于视频时长和网络速度。此时会消耗你的 ElevenLabs 额度。
分析与提案：转录完成后，AI 会分析takes_packed.md，并生成一个剪辑策略提案。它可能会这样回复：
“我分析了你的 3 段素材，总时长 5 分钟。我建议：1) 删除开场寒暄和所有‘嗯’、‘呃’；2) 选取 A 段 00:15-00:45 关于‘效率浪费’的论述；3) 衔接 B 段 01:20-01:50 关于‘解决方案’的说明；4) 用 C 段的结论收尾。这样总时长约 58 秒。颜色使用温暖电影感滤镜，并添加全大写双词字幕。是否按此方案执行？”
人工确认：这是关键的控制环节。仔细阅读 AI 的提案，检查其选择的片段和逻辑是否符合你的要求。你可以直接回复 “Yes, proceed.”，也可以提出修改意见，如 “Can we include the example about code review from take2?”。AI 会根据你的反馈调整策略，直到你确认。

3.3 执行渲染与获取结果

一旦你确认策略，AI 便会开始执行：

生成 EDL 与渲染：AI 会根据最终策略生成一个详细的编辑决策列表，并调用 ffmpeg 进行多步骤处理（剪切、调色、音频淡化、压制字幕等）。这个过程会在后台运行，时间取决于视频长度和复杂度。
自我评估：渲染出初步的final.mp4后，AI 会启动自我评估循环，检查每个剪辑点。如果发现问题（如字幕在切帧时未消失），它会尝试调整参数重新渲染。

交付成果：所有检查通过后，AI 会通知你视频已处理完成。所有输出文件都位于源素材目录下的edit/子文件夹中。

~/Videos/ai_interview_raw/ ├── take1.mp4 ├── take2.mov └── edit/ # video-use 创建的输出目录 ├── final.mp4 # 最终成品视频 ├── takes_packed.md # 转录文本 ├── edit.edl # 编辑决策列表文件 └── timeline_*.png # 自我评估时生成的预览图

你现在可以打开edit/final.mp4查看成品。一个专业的、去除冗余、颜色统一、带有硬字幕的视频应该已经生成。

3.4 理解核心输出文件

在edit/目录中，有几个文件对于理解和调试至关重要：

takes_packed.md：这是 AI 的“剧本”。打开它，你可以看到所有转录文本及其精确到词的时间戳。这是理解 AI 剪辑逻辑的源头。
edit.edl：编辑决策列表。这是一个文本文件，详细描述了 ffmpeg 执行了哪些操作。高级用户可以手动修改此文件，实现更精细的控制。
timeline_*.png：这些是 AI 在自我评估阶段生成的预览图。如果对某个剪辑点有疑问，查看对应的 PNG 图可以帮助你理解 AI 当时“看到”了什么。

4. 高级配置、问题排查与最佳实践

成功运行一次基础流程后，你可能需要定制化工作流或解决遇到的一些问题。

4.1 自定义编辑规则与样式

video-use 的规则定义在SKILL.md和helpers/目录下的 Python 脚本中。你可以通过修改环境变量或技能参数来调整行为。

修改字幕样式：默认字幕是两词一组、全大写。要修改，你需要编辑helpers/目录下负责字幕生成的脚本（例如与burn_subtitles相关的函数），调整字体、大小、颜色、布局等参数，然后重新安装技能（或修改符号链接指向你的定制版本）。
使用自定义 ffmpeg 滤镜链：video-use 内置了几个调色预设。你可以在指令中指定使用neutral punch，或者直接提供一段自定义的 ffmpeg 滤镜复杂图形字符串。这需要对 ffmpeg 滤镜语法有较深了解。
```
... Use a custom color grade with this ffmpeg filter: `colorbalance=rs=-0.1:gs=0.0:bs=0.1` ...
```
调整音频淡入淡出时长：默认 30ms 的音频交叉淡化时长定义在代码中。要修改需要直接编辑helpers/下音频处理相关的脚本。

4.2 常见问题与排查路径

即使按照教程操作，你也可能会遇到一些问题。下表列出了常见问题及其解决方法：

问题现象	可能原因	检查与解决步骤
Claude Code 提示“未找到 video-use 技能”或无法响应编辑指令。	1. 技能符号链接未正确创建。 2. Claude Code 未在技能目录正确加载。	1. 检查`~/.claude/skills/`目录下是否存在`video-use`符号链接，并指向正确的克隆目录。 2. 重启 Claude Code 应用，有时需要重启才能加载新技能。 3. 在 Claude Code 中手动输入技能安装指令，让其自行修复。
转录阶段失败，提示 API 错误或超时。	1. ElevenLabs API Key 未设置或错误。 2. 网络连接问题。 3. 音频文件过大或格式不支持。	1. 检查`~/.env`文件或项目根目录下的`.env`文件，确认`ELEVENLABS_API_KEY`已正确设置且无多余空格。 2. 尝试在终端用`curl`测试 ElevenLabs API 连通性。 3. 确认视频包含可识别的音频轨道。可先用`ffmpeg -i your_video.mp4`检查流信息。
渲染阶段失败，ffmpeg 报错。	1. ffmpeg 未安装或版本太旧。 2. 缺少特定编解码器。 3. 输入视频格式怪异。	1. 终端运行`ffmpeg -version`确认安装成功。 2. 查看 AI 输出的错误日志，通常 ffmpeg 的错误信息很详细。可能是“不支持编码器”或“无效参数”。 3. 尝试用 ffmpeg 预先将视频转码为标准 H.264/AAC 的 MP4 格式：`ffmpeg -i input.mov -c:v libx264 -c:a aac output.mp4`。
最终视频没有字幕或颜色未调整。	1. 指令未被技能正确解析。 2. 自我评估阶段认为添加字幕/调色不合适（罕见）。 3. 相关功能脚本执行出错。	1. 检查`edit.edl`文件，看其中是否包含了`ass=`（字幕）和`colorbalance`/`lut`等滤镜指令。如果没有，说明 AI 的策略生成环节未包含这些操作。 2. 查看 Claude Code 的完整会话日志，看是否有来自`helpers/`脚本的 Python 报错。 3. 在指令中更明确地要求：“务必烧制硬字幕”和“应用温暖电影感调色”。
处理速度非常慢。	1. 视频分辨率过高。 2. 电脑性能不足。 3. ElevenLabs 转录排队。	1. 对于 4K 视频，考虑在编辑前先创建一份低分辨率的代理文件进行处理。 2. 渲染是 CPU/GPU 密集型任务，耐心等待。 3. 转录速度取决于 ElevenLabs 的服务器状态，非本地控制。

4.3 生产环境与团队协作建议

如果计划将 video-use 用于更严肃或团队协作的场景，需要考虑以下几点：

API 成本管理：ElevenLabs 转录是主要成本。对于长视频，可以先在本地使用开源工具（如 OpenAI Whisper）生成粗略的转录和时码，仅对需要精剪的部分使用 ElevenLabs Scribe，以节省费用。
版本控制与技能定制：如果你修改了helpers/下的脚本，建议将你 fork 的video-use仓库纳入 Git 版本控制。这样团队可以共享统一的定制规则。
使用 Browser Use Box 进行远程/常驻服务：项目提到了 Browser Use Box，它可以将智能体作为常驻服务运行，并通过 Telegram 等接口触发。这适合需要从不同地点、不同设备提交视频编辑任务的场景。
项目记忆：video-use 会将会话状态保存在project.md文件中。这意味着你可以在后续会话中针对同一批素材说“基于上次的剪辑，把结尾部分换成另一个镜头”，AI 能记住上下文。妥善保管这个文件。
输出文件管理：edit/文件夹每次运行都可能被覆盖或更新。对于重要项目，在最终确认后，建议将final.mp4和对应的edit.edl、takes_packed.md一起归档，以便未来追溯或修改。

video-use 代表了一种新的创作范式：将视频编辑从手动操作界面解放出来，转变为与 AI 协作的、基于意图描述的高层对话。它的强大之处不在于替代所有精细的手动剪辑，而在于快速处理大量原始素材、完成粗剪和标准化处理（如去赘语、调色、加字幕），让创作者能更专注于创意和叙事本身。掌握其核心原理——文本转录驱动、按需视觉校验、闭环自我评估——并熟练运用其工作流程，能显著提升内容生产的效率基线。接下来，你可以尝试更复杂的指令，如混合多个来源的视频、添加动态图形（通过集成 Manim 或 Remotion），或建立自己团队的视频编辑自动化管道。

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

编程学习技术分享实战经验

资讯详情

AI视频编辑自动化：基于文本转录与智能体协作的video-use实践指南

1. 理解 video-use 的核心设计：为何“读”视频比“看”视频更高效

1.1 两层理解模型：文本为主，视觉为辅

1.2 自动化编辑管道与自我评估循环

1.3 非协商的“生产规则”与艺术自由

2. 环境准备与依赖安装：搭建智能体视频编辑工作台

2.1 基础环境与智能体准备

2.2 安装核心命令行工具：ffmpeg 与 yt-dlp

2.3 获取 ElevenLabs API 密钥

2.4 安装与配置 video-use 技能

3. 实战演练：使用 video-use 剪辑一段口播视频

3.1 准备原始素材与启动会话

3.2 下达编辑指令与确认策略

3.3 执行渲染与获取结果

3.4 理解核心输出文件

4. 高级配置、问题排查与最佳实践

4.1 自定义编辑规则与样式

4.2 常见问题与排查路径

4.3 生产环境与团队协作建议

最新新闻

日新闻

周新闻

月新闻

资讯详情

AI视频编辑自动化：基于文本转录与智能体协作的video-use实践指南

1. 理解 video-use 的核心设计：为何“读”视频比“看”视频更高效

1.1 两层理解模型：文本为主，视觉为辅

1.2 自动化编辑管道与自我评估循环

1.3 非协商的“生产规则”与艺术自由

2. 环境准备与依赖安装：搭建智能体视频编辑工作台

2.1 基础环境与智能体准备

2.2 安装核心命令行工具：ffmpeg 与 yt-dlp

2.3 获取 ElevenLabs API 密钥

2.4 安装与配置 video-use 技能

3. 实战演练：使用 video-use 剪辑一段口播视频

3.1 准备原始素材与启动会话

3.2 下达编辑指令与确认策略

3.3 执行渲染与获取结果

3.4 理解核心输出文件

4. 高级配置、问题排查与最佳实践

4.1 自定义编辑规则与样式

4.2 常见问题与排查路径

4.3 生产环境与团队协作建议

相关新闻

最新新闻

日新闻

周新闻

月新闻