做口播 IP 获客视频,我从需要一天压缩到 20 分钟,我的 Agent 剪辑 Sop 更新版


做口播 IP 获客视频,我从需要一天压缩到 20 分钟,我的 Agent 剪辑 Sop 更新版

之前有个视频讲了我用 Agent 自动剪辑的方法,播放量到了 3 万多。

X 音科技的官方也找过来,让我多发内容,给流量扶持。

评论区很多人问这套流程怎么跑的,也有同行和爱好者来讨论。

当然也有质疑的。

——

先回答一个最根本的问题:我有没有跑通?

跑通了。但不是我一开始就跑通的。

我前后做了 16 期视频,数据不满意的全部删了。你最后能看到的,就那么六七条。

删掉的那 10 多期,每一期都是我在试流程、调环节、改工具。

——

为什么我说 Agent 自动剪辑才是做短视频最好的方式?

因为你用模板工具、用剪映点点点,或者用那种「全自动生成」的软件,你的检查点太少了。

视频出来了,你还得打开电脑、打开网页去看,发现问题再改,来回折腾。

Agent 不一样的地方在于:它的每一步你都可以 check。

文案你确认了才往下走,视频出来了发到你手机上你过一遍。

检查点只有两个,但每一个都是你自己控制的。

——

我现在这套流程,跟最早那个版本比,改了很多。一个一个说。

——

第一步:不录口播了,直接语音输入

以前我的做法是录一段十多分钟的口播视频,再用 Whisper 转成文字。

这一步效率很低。你要对着镜头说十几分钟,说错了还得重来,录完了还要等转写。

现在我换了个方式:打开手机语音输入法,打开备忘录,想说什么说什么。

说错了不管,重复了不管,想到什么补充什么。

AI 拿到这段原始文字,直接处理。效率比录口播再转文字高太多了。

——

第二步:AI 按结构整理文案

原始文字丢给 AI 之后,我让它按一个固定的结构来整理:

注意力,视角,优势,解决方案。

四框架。你回头看我每条视频,基本都是这个结构。

先抓注意力,再给你一个看问题的角度,然后讲优势,最后给解决方案。

AI 按这个结构帮我梳理完之后,再浓缩成一个 400 字的精简稿。

400 字差不多就是 1 分多钟的量,正好卡着短视频的节奏。

——

第三步:飞书核对,我控制开头

精简稿出来之后,AI 直接发到我的飞书,让我核对。

为什么要核对?因为我还是要主观控制文案的开头。

开头决定了你的目标受众会不会继续看下去。

这一步我还会让 AI 调动网络搜索功能,核实我提到的工具名、模型名是不是真实存在的,有没有错别字。

比如我随口说的某个工具,AI 帮我查一下是不是叫这个名字,版本对不对。

全部确认之后,才往下走。

——

第四步:录一个 7-8 秒的开头

为什么要自己录开头?

做人设还是要真实的。

市面上有那种口播智能体,你不用说话,站在那里做动作,声音用上传的音频。但我始终觉得这种方式有两个问题:一个是表情乱,一个是每次的声音状态不一样。

既然我可以大批量生产,每次录的状态、精神面貌都会不一样。

所以我改成:每次录一个 7-8 秒的开头,用我当下的声音和状态作为基底。

正文的声音,用 IndexTTS2 克隆我的声音来生成。

IndexTTS2 是 B 站开源的语音克隆工具,本地跑,免费。

用你录开头时的声音作为参考,它来克隆你的音色生成正文配音。

这样你每次录的状态和情绪都是真实的,不是模板。

——

第五步:Agent 自动跑后半段

开头录完之后,剩下全部 Agent 自动跑。

IndexTTS2 生成正文配音,Whisper 拿时间戳,Remotion 做动画,gpt-image-2 出封面。

这些你都不用管,让它在电脑里自己跑就行。

Whisper 我从 Windows 搬到了 Mac 上,用了 MLX 架构,速度快了很多。

封面的生成也是直接调 API,给一个提示词和参考图就出图。

——

第六步:飞书交付,手机上直接发布

全部弄好之后,Agent 把封面、视频、标题标签全部发到我飞书。

我任何一个手机都连着飞书,也有抖音和视频号的账号。

打开飞书看一眼视频没问题,标题想微调就微调一下,直接复制发布。

——

整套流程,检查点只有两个:

一个是文案开头,你确认了才往下走。

一个是视频成品,你过一遍没问题就发布。

我花的时间就是:有灵感的时候说 10 分钟话,录 7-8 秒开头,最后花几分钟检查。

一条视频,20 分钟。

因为我平时工作很忙,这样我就可以把更多时间花在主业上。做短视频这件事,不耽误正事。

——

我是耐D,分享小生意人、小老板、电商卖家、超级个体的 Agent 真实落地情况。

点击下方联系我

备注「行业」,送你一份《Agent 扫盲手册》。
朋友圈每天发 Agent 实操踩坑,比文章更即时。