教了10年营销课,这周我用AI给一个网格员做了场演讲

上周四晚上，我一个在义乌做工业区服务的朋友甩了个 docx 过来。

「我们这边有个网格员，下周要做一场安全主题演讲，5分钟，2个故事。能帮做个配套的背景视频吗？预算你就当没有。」

我心里咯噔一吓。

教了10年视觉营销课，给企业做品牌片做了几百条。但「网格员 + 工业安全 + 演讲背景视频」，这个组合我是真没碰过。

打开 docx 一看，主角是个40岁左右的网格巡查员，演讲实名。

故事就两个。

一个是配电箱粉尘对峙。网格员去小五金厂巡查，发现一个配电箱发烫。老板说「用了六年都没事，明天就要交货」，网格员说「今天不清我不走」。三个月后，邻县一家厂因为同样问题起火停产，那位老板打电话来感谢他「跟我犟」。

另一个是老焊工的手。一个干了22年的焊工，十个手指头九个有疤。他摘下手套跟网格员说，「这些疤要是会说话，每一道都能给你讲一个’当时我以为没事’的故事」。

我看完心里就一个想法：

这事值得做。

但得用 AI。

一、为什么不能用实景拍

一开始我想的是实景拍摄。

这条路很快被堵死了。

预算。工业区场景，单场地拍摄一天就是几千。二十个场景要拍一周，预算直接上五位数。

周期。朋友说下周就要。实景拍摄，场地协调、演员档期、后期剪辑，一周根本来不及。

效果。这场演讲的听众是工业区同行和企业主。演讲者本人就是一个真实的网格员。实景画面再真实，也不可能比真实场景更好。还会喧宾夺主，让观众的注意力跑到画面上去，反而听不见演讲者在说什么。

权衡之后，我换了一个思路。

二、为什么用动漫风

我决定用 AI 生成动漫风格的画面。

这个决定其实有四个理由。

第一，动漫可以做到更克制。实景拍一个老焊工的疤，演员的「表演」会过，观众的注意力会被演技分散。动漫画面里没有演员，只有一只疤痕手和暖光，情感的重量会直接落到「疤」本身。

第二，动漫可以更高效地表达时间流逝。三个月后邻县起火。实景拍一个新闻画面要协调消防车、场地、演员。动漫只要换一张图就够。

第三，动漫可以保证人物一致。演讲者本人就是网格员，画面里不需要出现他的正脸，只需要有他的马甲、记录本、姿态就够了。这反而让观众把注意力放在声音上。

第四，成本。AI 生成图片，单张成本不到 4 分钱。

我选的方向是「日系动漫 + 宫崎骏光感」，配色锁在四组。

工业蓝 #1E3A5F（冷静、专业）
安全橙 #FF6B35（活力、警示）
警示红 #E63946（危险、应急）
夕阳金 #FFB347（温暖、希望）

风格关键词就这一行：

anime style, Japanese animation, Makoto Shinkai lighting, cinematic composition, warm sunlight, no text, no watermark, no logos

这套提示词后缀我打算全项目复用。

三、把一篇演讲拆成 20 张图

讲话稿是文字，画面是图像。

中间这一步，是这个项目里最花时间的活。

我把 5 分钟演讲按「情绪曲线」拆成了 5 段、20 个场景。

第一段，开场 + 自嘲（3 场景）
演讲者剪影、工业区黄昏全景、「扫兴哥」标题

第二段，故事一·配电箱对峙（10 场景）
热浪效果的车间、仓库角落的配电箱、手摸烫的特写、周老板怒目对峙、网格员在厂门口等待、工人清理粉尘飞扬、「这人真犟」纸条特写、邻县起火新闻画面、电话感谢

第三段，感悟升华（2 场景）
黑色背景金句「你明明看到了那个隐患，却没有坚持到它被改掉」

第四段，故事二·老焊工的疤（3 场景）
老焊工侧脸剪影、十指九疤的特写、「当时我以为没事」金句

第五段，结尾（2 场景）
「本质安全水平」金句、夕阳金回家剪影

每个场景我都写了一段画面提示词，从中文场景描述翻译到英文关键词，再嵌入统一风格后缀。

为了保证人物一致，我还为三个核心角色（网格员、周老板、老焊工）单独做了一张「人设参考图」，后面所有场景里出现这三个人的画面，都用这张参考图做图生图（image-to-image），AI 就在参考图的基础上微调场景，不会换脸。

四、工具链与真实成本

工具我用的是 APIMart + GPT-Image-2。

1k 分辨率，单张成本 $0.006，按今天汇率算下来是 4 分钱一张。

20 个场景全部生成一遍，理论成本是 0.12 美元，约 8 毛钱。

实际我用了三批次策略。

核心 6 张必做（配电箱特写、手摸烫、网格员坚持、邻县起火、焊工双手、回家背影）= 6 × 0.006 =$0.036，约 2.5 毛

重要 6 张（演讲者剪影、周老板、对峙对话、纸条、灵魂拷问、结尾金句）= 6 × 0.006 =$0.036，约 2.5 毛

可选 8 张= 8 × 0.006 =$0.048，约 3.5 毛

全套预算，不超过 1 块钱人民币。

批量调用我写了一个 Python 脚本，扫一遍任务状态，把生成完的图自动下载到本地，按「010_坚持_网格员」这种命名规范存好。整套生图流程是无人值守的，我开完会回来，6 张图已经躺好。

五、3 个我踩过的坑

坑一，分辨率参数没传。第一次跑，平台默认给我 2K 输出，单张 $0.012。第二批我显式传了resolution: "1k"，成本直接砍半。

坑二，base64 大图卡住。人物参考图我转成 base64 内嵌到请求里。结果图太大，平台队列卡在 prog=0，等了 10 分钟没反应。后来我把参考图压缩到 1MB 以内，问题解决。

坑三，URL 24 小时过期。平台返回的图床 URL 24 小时就失效。我把所有 task_id 存到一个 JSON 里，需要重新下载就拿 task_id 重跑拿新 URL。脚本里加了自动检查过期和重生的逻辑。

这三个坑不是工具的问题，是第一次用都会踩的「新工具税」。

但你踩过一次，后面再用到同款工具，就直接绕过。

六、第一张图跑出来的时候

第一批 6 张图跑出来那天晚上，我盯着屏幕看了很久。

配电箱特写那张，粉尘把散热孔堵死的画面，金属表面的微黄，远景是仓库的昏暗。

这是整个演讲的核心画面，是网格员坚持「今天不清我不走」那一刻的视觉锚点。

AI 没有真的去五金厂拍过一张照片。但它生成的画面，传递出了「危险」和「逼仄」的体感。

焊工双手那张，夕阳照在满是疤痕的手上。

这是一个非常安静的镜头。但你能感觉到这双手背后的 22 年。

我突然意识到一件事。

AI 生成的画面需要「对」。它不需要「真」。

「真」是摄影机的活。

「对」是讲故事的人该操心的。

七、这给我留下什么

回头看这个项目，让我有三点感受。

第一，AI 真正降低的是「为低频需求投入资源」的门槛。

这个演讲视频的需求是 1 次性的，不会有人拿这个视频去变现。但它对一个真实的人、一场真实的汇报，意义重大。

如果没有 AI，做这件事的成本会高到根本不会发生。

我以前做商业项目，一个品牌片至少 5 万起步。这个项目如果按市价走，朋友的公司根本不会做。但用 AI，2 块钱 + 一个周末就搞定了。

这就是 AI 真正的杠杆。它把「为低频需求付费」这件事，变得可行了。

第二，AI 工作流最值钱的不是工具，是方法论。

这次的「三批次优先级」、「提示词统一后缀」、「人设参考图」、「URL 24 小时过期应对」，这些都不是工具给的，是我前几次项目踩出来的。

这套方法论沉淀下来，下次再做类似项目（哪怕是另一种演讲、另一种题材），整个流程 3 小时就能跑通。

工具会变，但方法论可以复用。

第三，动漫风格在严肃场景里反而更好用。

实景画面会「喧宾夺主」，动漫画面反而「克制」。

这件事我之前没想过。但做完这个项目我理解了。

当内容本身够重时，画面越轻越对。

最后

这篇稿子写到一半的时候，我突然想起一句老话。做内容最难的不是技术，是知道给谁看。

这个项目从头到尾，我从没想过去「讨好」观众。网格员的故事本身就有重量，AI 的任务不是「美化」它，是「不打扰」它。

能做到「不打扰」，其实是最难的事。

如果你也有「一次性 + 个人化 + 预算紧」的需求，欢迎试试这套思路。