做口播 IP 获客视频,我从需要一天压缩到 20 分钟,我的 Agent 剪辑 Sop 更新版

之前有个视频讲了我用 Agent 自动剪辑的方法，播放量到了 3 万多。

X 音科技的官方也找过来，让我多发内容，给流量扶持。

评论区很多人问这套流程怎么跑的，也有同行和爱好者来讨论。

当然也有质疑的。

——

先回答一个最根本的问题：我有没有跑通？

跑通了。但不是我一开始就跑通的。

我前后做了 16 期视频，数据不满意的全部删了。你最后能看到的，就那么六七条。

删掉的那 10 多期，每一期都是我在试流程、调环节、改工具。

——

为什么我说 Agent 自动剪辑才是做短视频最好的方式？

因为你用模板工具、用剪映点点点，或者用那种「全自动生成」的软件，你的检查点太少了。

视频出来了，你还得打开电脑、打开网页去看，发现问题再改，来回折腾。

Agent 不一样的地方在于：它的每一步你都可以 check。

文案你确认了才往下走，视频出来了发到你手机上你过一遍。

检查点只有两个，但每一个都是你自己控制的。

——

我现在这套流程，跟最早那个版本比，改了很多。一个一个说。

——

第一步：不录口播了，直接语音输入

以前我的做法是录一段十多分钟的口播视频，再用 Whisper 转成文字。

这一步效率很低。你要对着镜头说十几分钟，说错了还得重来，录完了还要等转写。

现在我换了个方式：打开手机语音输入法，打开备忘录，想说什么说什么。

说错了不管，重复了不管，想到什么补充什么。

AI 拿到这段原始文字，直接处理。效率比录口播再转文字高太多了。

——

第二步：AI 按结构整理文案

原始文字丢给 AI 之后，我让它按一个固定的结构来整理：

注意力，视角，优势，解决方案。

四框架。你回头看我每条视频，基本都是这个结构。

先抓注意力，再给你一个看问题的角度，然后讲优势，最后给解决方案。

AI 按这个结构帮我梳理完之后，再浓缩成一个 400 字的精简稿。

400 字差不多就是 1 分多钟的量，正好卡着短视频的节奏。

——

第三步：飞书核对，我控制开头

精简稿出来之后，AI 直接发到我的飞书，让我核对。

为什么要核对？因为我还是要主观控制文案的开头。

开头决定了你的目标受众会不会继续看下去。

这一步我还会让 AI 调动网络搜索功能，核实我提到的工具名、模型名是不是真实存在的，有没有错别字。

比如我随口说的某个工具，AI 帮我查一下是不是叫这个名字，版本对不对。

全部确认之后，才往下走。

——

第四步：录一个 7-8 秒的开头

为什么要自己录开头？

做人设还是要真实的。

市面上有那种口播智能体，你不用说话，站在那里做动作，声音用上传的音频。但我始终觉得这种方式有两个问题：一个是表情乱，一个是每次的声音状态不一样。

既然我可以大批量生产，每次录的状态、精神面貌都会不一样。

所以我改成：每次录一个 7-8 秒的开头，用我当下的声音和状态作为基底。

正文的声音，用 IndexTTS2 克隆我的声音来生成。

IndexTTS2 是 B 站开源的语音克隆工具，本地跑，免费。

用你录开头时的声音作为参考，它来克隆你的音色生成正文配音。

这样你每次录的状态和情绪都是真实的，不是模板。

——

第五步：Agent 自动跑后半段

开头录完之后，剩下全部 Agent 自动跑。

IndexTTS2 生成正文配音，Whisper 拿时间戳，Remotion 做动画，gpt-image-2 出封面。

这些你都不用管，让它在电脑里自己跑就行。

Whisper 我从 Windows 搬到了 Mac 上，用了 MLX 架构，速度快了很多。

封面的生成也是直接调 API，给一个提示词和参考图就出图。

——

第六步：飞书交付，手机上直接发布

全部弄好之后，Agent 把封面、视频、标题标签全部发到我飞书。

我任何一个手机都连着飞书，也有抖音和视频号的账号。

打开飞书看一眼视频没问题，标题想微调就微调一下，直接复制发布。

——

整套流程，检查点只有两个：

一个是文案开头，你确认了才往下走。

一个是视频成品，你过一遍没问题就发布。

我花的时间就是：有灵感的时候说 10 分钟话，录 7-8 秒开头，最后花几分钟检查。

一条视频，20 分钟。

因为我平时工作很忙，这样我就可以把更多时间花在主业上。做短视频这件事，不耽误正事。

——

我是耐D，分享小生意人、小老板、电商卖家、超级个体的 Agent 真实落地情况。

点击下方联系我