教了10年营销课,这周我用AI给一个网格员做了场演讲


教了10年营销课,这周我用AI给一个网格员做了场演讲

上周四晚上,我一个在义乌做工业区服务的朋友甩了个 docx 过来。

「我们这边有个网格员,下周要做一场安全主题演讲,5分钟,2个故事。能帮做个配套的背景视频吗?预算你就当没有。」

我心里咯噔一吓。

教了10年视觉营销课,给企业做品牌片做了几百条。但「网格员 + 工业安全 + 演讲背景视频」,这个组合我是真没碰过。

打开 docx 一看,主角是个40岁左右的网格巡查员,演讲实名。

故事就两个。

一个是配电箱粉尘对峙。网格员去小五金厂巡查,发现一个配电箱发烫。老板说「用了六年都没事,明天就要交货」,网格员说「今天不清我不走」。三个月后,邻县一家厂因为同样问题起火停产,那位老板打电话来感谢他「跟我犟」。

另一个是老焊工的手。一个干了22年的焊工,十个手指头九个有疤。他摘下手套跟网格员说,「这些疤要是会说话,每一道都能给你讲一个’当时我以为没事’的故事」。

我看完心里就一个想法:

这事值得做。

但得用 AI。


一、为什么不能用实景拍

一开始我想的是实景拍摄。

这条路很快被堵死了。

预算。工业区场景,单场地拍摄一天就是几千。二十个场景要拍一周,预算直接上五位数。

周期。朋友说下周就要。实景拍摄,场地协调、演员档期、后期剪辑,一周根本来不及。

效果。这场演讲的听众是工业区同行和企业主。演讲者本人就是一个真实的网格员。实景画面再真实,也不可能比真实场景更好。还会喧宾夺主,让观众的注意力跑到画面上去,反而听不见演讲者在说什么。

权衡之后,我换了一个思路。

二、为什么用动漫风

我决定用 AI 生成动漫风格的画面。

这个决定其实有四个理由。

第一,动漫可以做到更克制。实景拍一个老焊工的疤,演员的「表演」会过,观众的注意力会被演技分散。动漫画面里没有演员,只有一只疤痕手和暖光,情感的重量会直接落到「疤」本身。

第二,动漫可以更高效地表达时间流逝。三个月后邻县起火。实景拍一个新闻画面要协调消防车、场地、演员。动漫只要换一张图就够。

第三,动漫可以保证人物一致。演讲者本人就是网格员,画面里不需要出现他的正脸,只需要有他的马甲、记录本、姿态就够了。这反而让观众把注意力放在声音上。

第四,成本。AI 生成图片,单张成本不到 4 分钱。

我选的方向是「日系动漫 + 宫崎骏光感」,配色锁在四组。

  • 工业蓝 #1E3A5F(冷静、专业)
  • 安全橙 #FF6B35(活力、警示)
  • 警示红 #E63946(危险、应急)
  • 夕阳金 #FFB347(温暖、希望)

风格关键词就这一行:

anime style, Japanese animation, Makoto Shinkai lighting, cinematic composition, warm sunlight, no text, no watermark, no logos

这套提示词后缀我打算全项目复用。

三、把一篇演讲拆成 20 张图

讲话稿是文字,画面是图像。

中间这一步,是这个项目里最花时间的活。

我把 5 分钟演讲按「情绪曲线」拆成了 5 段、20 个场景。

第一段,开场 + 自嘲(3 场景)
演讲者剪影、工业区黄昏全景、「扫兴哥」标题

第二段,故事一·配电箱对峙(10 场景)
热浪效果的车间、仓库角落的配电箱、手摸烫的特写、周老板怒目对峙、网格员在厂门口等待、工人清理粉尘飞扬、「这人真犟」纸条特写、邻县起火新闻画面、电话感谢

第三段,感悟升华(2 场景)
黑色背景金句「你明明看到了那个隐患,却没有坚持到它被改掉」

第四段,故事二·老焊工的疤(3 场景)
老焊工侧脸剪影、十指九疤的特写、「当时我以为没事」金句

第五段,结尾(2 场景)
「本质安全水平」金句、夕阳金回家剪影

每个场景我都写了一段画面提示词,从中文场景描述翻译到英文关键词,再嵌入统一风格后缀。

为了保证人物一致,我还为三个核心角色(网格员、周老板、老焊工)单独做了一张「人设参考图」,后面所有场景里出现这三个人的画面,都用这张参考图做图生图(image-to-image),AI 就在参考图的基础上微调场景,不会换脸。

四、工具链与真实成本

工具我用的是 APIMart + GPT-Image-2。

1k 分辨率,单张成本 $0.006,按今天汇率算下来是 4 分钱一张。

20 个场景全部生成一遍,理论成本是 0.12 美元,约 8 毛钱。

实际我用了三批次策略

核心 6 张必做(配电箱特写、手摸烫、网格员坚持、邻县起火、焊工双手、回家背影)= 6 × 0.006 =$0.036,约 2.5 毛

重要 6 张(演讲者剪影、周老板、对峙对话、纸条、灵魂拷问、结尾金句)= 6 × 0.006 =$0.036,约 2.5 毛

可选 8 张= 8 × 0.006 =$0.048,约 3.5 毛

全套预算,不超过 1 块钱人民币

批量调用我写了一个 Python 脚本,扫一遍任务状态,把生成完的图自动下载到本地,按「010_坚持_网格员」这种命名规范存好。整套生图流程是无人值守的,我开完会回来,6 张图已经躺好。

五、3 个我踩过的坑

坑一,分辨率参数没传。第一次跑,平台默认给我 2K 输出,单张 $0.012。第二批我显式传了resolution: "1k",成本直接砍半。

坑二,base64 大图卡住。人物参考图我转成 base64 内嵌到请求里。结果图太大,平台队列卡在 prog=0,等了 10 分钟没反应。后来我把参考图压缩到 1MB 以内,问题解决。

坑三,URL 24 小时过期。平台返回的图床 URL 24 小时就失效。我把所有 task_id 存到一个 JSON 里,需要重新下载就拿 task_id 重跑拿新 URL。脚本里加了自动检查过期和重生的逻辑。

这三个坑不是工具的问题,是第一次用都会踩的「新工具税」。

但你踩过一次,后面再用到同款工具,就直接绕过。

六、第一张图跑出来的时候

第一批 6 张图跑出来那天晚上,我盯着屏幕看了很久。

配电箱特写那张,粉尘把散热孔堵死的画面,金属表面的微黄,远景是仓库的昏暗。

这是整个演讲的核心画面,是网格员坚持「今天不清我不走」那一刻的视觉锚点。

AI 没有真的去五金厂拍过一张照片。但它生成的画面,传递出了「危险」和「逼仄」的体感。

焊工双手那张,夕阳照在满是疤痕的手上。

这是一个非常安静的镜头。但你能感觉到这双手背后的 22 年。

我突然意识到一件事。

AI 生成的画面需要「对」。它不需要「真」。

「真」是摄影机的活。

「对」是讲故事的人该操心的。


七、这给我留下什么

回头看这个项目,让我有三点感受。

第一,AI 真正降低的是「为低频需求投入资源」的门槛。

这个演讲视频的需求是 1 次性的,不会有人拿这个视频去变现。但它对一个真实的人、一场真实的汇报,意义重大。

如果没有 AI,做这件事的成本会高到根本不会发生。

我以前做商业项目,一个品牌片至少 5 万起步。这个项目如果按市价走,朋友的公司根本不会做。但用 AI,2 块钱 + 一个周末就搞定了。

这就是 AI 真正的杠杆。它把「为低频需求付费」这件事,变得可行了。

第二,AI 工作流最值钱的不是工具,是方法论。

这次的「三批次优先级」、「提示词统一后缀」、「人设参考图」、「URL 24 小时过期应对」,这些都不是工具给的,是我前几次项目踩出来的。

这套方法论沉淀下来,下次再做类似项目(哪怕是另一种演讲、另一种题材),整个流程 3 小时就能跑通。

工具会变,但方法论可以复用。

第三,动漫风格在严肃场景里反而更好用。

实景画面会「喧宾夺主」,动漫画面反而「克制」。

这件事我之前没想过。但做完这个项目我理解了。

当内容本身够重时,画面越轻越对。

最后

这篇稿子写到一半的时候,我突然想起一句老话。做内容最难的不是技术,是知道给谁看。

这个项目从头到尾,我从没想过去「讨好」观众。网格员的故事本身就有重量,AI 的任务不是「美化」它,是「不打扰」它。

能做到「不打扰」,其实是最难的事。

如果你也有「一次性 + 个人化 + 预算紧」的需求,欢迎试试这套思路。