您的位置:首页 > 手游攻略 > video-use - Browser Use 团队开源 AI 视频剪辑 Agent
video-use - Browser Use 团队开源 AI 视频剪辑 Agent
作者:互联网 时间: 2026-07-04 09:35:51
video-use是什么
Video-use 是 Browser Use 团队开源的 AI 视频剪辑 Agent,通过自然语言对话替代传统时间线操作。用户只需将原始素材放入文件夹并描述需求,Agent 自动完成素材盘点、口癖清除、调色、字幕、动画叠加及自评估,最终输出成片。Video-use 核心创新在于让 LLM 通过音频转录文本(约 12KB),大幅降低 token 成本,专为口播、教程、访谈等结构化内容的高效自动化剪辑设计。

video-use的主要功能
- 口癖与死寂清除:自动识别并删除”嗯””啊”等填充词、长停顿及表现不佳的重复拍摄 take。
- 自动调色:内置 warm_cinematic(暖色电影感)、neutral_punch(中性增强)等预设,支持自定义 ffmpeg 滤镜链。
- 30ms 音频淡变:每个切点自动添加 30 毫秒淡入淡出,彻底消除切点爆音。
- 烧录字幕:默认”两词大写”短视频风格,支持长句自然、大字幕强调等自定义字体、颜色、位置。
- 动画叠加:调用 HyperFrames、Remotion、Manim、PIL+ffmpeg 等引擎生成 B-roll 和动画卡片,由独立子 Agent 并行生成。
- 自评估循环:渲染后自动检查切点跳帧、音频爆音、字幕遮挡、叠加层对齐等问题,最多修复 3 次。
- 会话记忆:每次剪辑决策追加到
project.md,下次接续工作时保留之前的偏好和策略。

微信关注回复“开源”,加入AI开源项目交流群
如何使用video-use
- 克隆仓库:在终端执行
git clone https://github.com/browser-use/video-use ~/Developer/video-use 将项目代码下载到本地开发者目录。 - 安装依赖:进入项目目录后运行
uv sync 或 pip install -e . 安装 Python 依赖,同时通过 brew install ffmpeg 安装必需的音视频处理工具。 - 配置 API Key:复制环境变量模板文件
cp .env.example .env,然后编辑 .env 文件填入 ElevenLabs API Key 用于音频转录服务。 - 注册 Skill:创建符号链接将 video-use 注册到 Agent 的 skills 目录,例如 Claude Code 用户执行
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use。 - 开始使用:进入存放原始视频素材的文件夹,启动你的编程 Agent,对它说 “edit these into a launch video” 可触发自动剪辑流程。
video-use的核心优势
- 对话式交互替代手动剪辑:通过自然语言描述需求即可驱动 Agent 完成全流程,无需掌握专业剪辑软件操作。
- 通用兼容不受 API 限制:不依赖官方开放接口,任何有网页版的视频工具都能被 AI 驱动操控。
- 极低 token 成本理解视频:通过音频转录文本(约 12KB)替代逐帧视觉分析,让 LLM 高效”阅读”而非”观看”视频。
- 自动化机械劳动:口癖清除、调色、字幕、动画叠加等重复性工作由 Agent 自动执行,人类仅需确认策略。
- 标准化输出可复现:剪辑规则固化在代码中,保证同类型内容输出风格一致,避免人工操作差异。
- 自评估质量保障:渲染后自动检查跳帧、爆音、遮挡等问题并修复,确保成片质量达标后才呈现给用户。
video-use的项目地址
- GitHub仓库:https://github.com/browser-use/video-use
video-use的同类竞品对比
维度 | video-use | OpenStoryline (FireRedTeam) | 开发团队Browser Use(海外)小红书 Super Intelligence 团队 / FireRedTeam(国内)
开源协议MITApache-2.0
Stars13,7492,817
核心定位编程 Agent 对话式剪辑 raw footage意图驱动式视频创作,从素材搜索到成片
交互方式命令行对话(Claude Code / Codex)自然语言对话 + Web 界面 + CLI
内容来源本地 raw footage(口播、访谈素材)支持本地素材 + 在线媒体搜索下载
智能脚本基于音频转录文本理解内容自动生成故事线、旁白、 Few-shot 风格迁移
动画/特效HyperFrames / Remotion / Manim / PIL内置 BGM 智能推荐、AI 转场生成、字体风格匹配
video-use的应用场景
- 技术博主口播剪辑:快速将多次录制的 raw footage 剪成连贯的发布视频,自动清除口癖和停顿。
- 教程制作团队:批量处理大量重复性剪辑任务,标准化字幕、调色和动画叠加流程。
- 产品发布视频:将多段素材按策略自动拼接,统一视觉风格并生成配套 B-roll 动画。
- 访谈/播客后期:自动识别最佳 take、清除冗余内容,输出带字幕和淡变处理的成片。
- 内容创作者标准化工作流:将剪辑流程从手动操作转为策略确认,释放时间聚焦内容创作本身。