做口播 IP 获客视频,我从需要一天压缩到 20 分钟,我的 Agent 剪辑 Sop 更新版

之前有个视频讲了我用 Agent 自动剪辑的方法,播放量到了 3 万多。
X 音科技的官方也找过来,让我多发内容,给流量扶持。
评论区很多人问这套流程怎么跑的,也有同行和爱好者来讨论。
当然也有质疑的。
——
先回答一个最根本的问题:我有没有跑通?
跑通了。但不是我一开始就跑通的。
我前后做了 16 期视频,数据不满意的全部删了。你最后能看到的,就那么六七条。
删掉的那 10 多期,每一期都是我在试流程、调环节、改工具。
——
为什么我说 Agent 自动剪辑才是做短视频最好的方式?
因为你用模板工具、用剪映点点点,或者用那种「全自动生成」的软件,你的检查点太少了。
视频出来了,你还得打开电脑、打开网页去看,发现问题再改,来回折腾。
Agent 不一样的地方在于:它的每一步你都可以 check。
文案你确认了才往下走,视频出来了发到你手机上你过一遍。
检查点只有两个,但每一个都是你自己控制的。
——
我现在这套流程,跟最早那个版本比,改了很多。一个一个说。
——
第一步:不录口播了,直接语音输入
以前我的做法是录一段十多分钟的口播视频,再用 Whisper 转成文字。
这一步效率很低。你要对着镜头说十几分钟,说错了还得重来,录完了还要等转写。
现在我换了个方式:打开手机语音输入法,打开备忘录,想说什么说什么。
说错了不管,重复了不管,想到什么补充什么。
AI 拿到这段原始文字,直接处理。效率比录口播再转文字高太多了。
——
第二步:AI 按结构整理文案
原始文字丢给 AI 之后,我让它按一个固定的结构来整理:
注意力,视角,优势,解决方案。
四框架。你回头看我每条视频,基本都是这个结构。
先抓注意力,再给你一个看问题的角度,然后讲优势,最后给解决方案。
AI 按这个结构帮我梳理完之后,再浓缩成一个 400 字的精简稿。
400 字差不多就是 1 分多钟的量,正好卡着短视频的节奏。
——
第三步:飞书核对,我控制开头
精简稿出来之后,AI 直接发到我的飞书,让我核对。
为什么要核对?因为我还是要主观控制文案的开头。
开头决定了你的目标受众会不会继续看下去。
这一步我还会让 AI 调动网络搜索功能,核实我提到的工具名、模型名是不是真实存在的,有没有错别字。
比如我随口说的某个工具,AI 帮我查一下是不是叫这个名字,版本对不对。
全部确认之后,才往下走。
——
第四步:录一个 7-8 秒的开头
为什么要自己录开头?
做人设还是要真实的。
市面上有那种口播智能体,你不用说话,站在那里做动作,声音用上传的音频。但我始终觉得这种方式有两个问题:一个是表情乱,一个是每次的声音状态不一样。
既然我可以大批量生产,每次录的状态、精神面貌都会不一样。
所以我改成:每次录一个 7-8 秒的开头,用我当下的声音和状态作为基底。
正文的声音,用 IndexTTS2 克隆我的声音来生成。
IndexTTS2 是 B 站开源的语音克隆工具,本地跑,免费。
用你录开头时的声音作为参考,它来克隆你的音色生成正文配音。
这样你每次录的状态和情绪都是真实的,不是模板。
——
第五步:Agent 自动跑后半段
开头录完之后,剩下全部 Agent 自动跑。
IndexTTS2 生成正文配音,Whisper 拿时间戳,Remotion 做动画,gpt-image-2 出封面。
这些你都不用管,让它在电脑里自己跑就行。
Whisper 我从 Windows 搬到了 Mac 上,用了 MLX 架构,速度快了很多。
封面的生成也是直接调 API,给一个提示词和参考图就出图。
——
第六步:飞书交付,手机上直接发布
全部弄好之后,Agent 把封面、视频、标题标签全部发到我飞书。
我任何一个手机都连着飞书,也有抖音和视频号的账号。
打开飞书看一眼视频没问题,标题想微调就微调一下,直接复制发布。
——
整套流程,检查点只有两个:
一个是文案开头,你确认了才往下走。
一个是视频成品,你过一遍没问题就发布。
我花的时间就是:有灵感的时候说 10 分钟话,录 7-8 秒开头,最后花几分钟检查。
一条视频,20 分钟。
因为我平时工作很忙,这样我就可以把更多时间花在主业上。做短视频这件事,不耽误正事。
——
我是耐D,分享小生意人、小老板、电商卖家、超级个体的 Agent 真实落地情况。
点击下方联系我
备注「行业」,送你一份《Agent 扫盲手册》。
朋友圈每天发 Agent 实操踩坑,比文章更即时。