把孩子的碎碎念变成绘本

如果你也在折腾 AI 工具、自动化和个人知识库,这里会持续记录真实用法和踩坑。 关注更新

孩子讲故事的时候,有一种成年作者模仿不出来的东西。

逻辑是跳的,因果关系是乱的,物品会莫名其妙消失,企鹅会突然出现在冰块山旁边。但这些恰恰是绘本最好的素材。问题在于,现在大多数 AI 生图工具拿到一段故事后,第一反应是帮你”整理”——把跳跃的情节理顺,把奇怪的角色删掉,把荒诞的设定改成合理。整理完确实通顺了,但孩子语言里最珍贵的那层东西也没了。

这篇文章不讨论该用什么模型生成绘本插图,只讲一件事:怎么设计一套 Prompt,让 AI 帮你把孩子的碎碎念变成绘本,但不弄丢里面的童趣。

别让 AI 帮你”改作文”

试过用生图工具处理儿童故事的人大概都踩过同一个坑。把孩子的原话丢进去,出来的画面很精美,但故事已经不是原来那个故事了。角色被美化了,情节被理顺了,荒诞感被替换成了标准童话模板。

问题的根源不在画风,在前置环节。大多数生图流程是这样的:

1
儿童口述 → 图片 Prompt → 生成插图

这个链路跳过了最关键的步骤。儿童原始口述通常缺少稳定角色设定、清晰场景顺序、每页视觉焦点和统一画风。直接转图片 Prompt,AI 就只能靠猜来补这些缺口,猜着猜着就把童趣猜没了。

更稳定的走法是:

1
碎碎念 → 故事结构 → 分镜 → 页面 Prompt → 图片

六步 Prompt 链

整套流程下来需要六段 Prompt,每段解决一个问题。

第一段:提取,不改写。 让 AI 扮演”儿童故事结构分析师”,任务不是改写,是从原始口述里找出角色、物品、事件顺序和那些奇怪的因果逻辑。关键约束是:不要批评故事不连贯、不要删掉孩子的奇怪想象、不要往成熟方向改。

第二段:搭骨架,不填肉。 把提取出的素材整理成有开始、发展、转折、误会、解决和结尾的结构。这时还不是正式写故事,只是确认主线。要求保留儿童原始故事中的关键角色、物品和荒诞设定。

第三段:写故事,保持孩子气。 照着骨架写出 800-1200 字的绘本正文。语言简单、可爱、有节奏。角色对话带一点孩子气。结尾要温暖,有”误会解开、互相道歉、各自回家”的感觉。

第四段:拆分镜。 把完整故事拆成 12-16 个绘本页面。每个分镜一页,包含页码、本页故事文字、画面内容、角色动作表情、场景环境和文字摆放位置。

第五段:压缩文字。 绘本页面上放不下大段文字。把每页文字压成 1-3 句短句,允许”咦?””哎呀!””哦!”这种口语短句。

第六段:生成页面 Prompt。 每条 Prompt 包含画面主体、场景、角色动作表情、构图、光线、色彩、风格、文字排版位置,以及”不要出现什么”。所有页面引用同一份角色设定表,保证男孩不会翻一页变一张脸。

无文字图 + 后期加字

正式绘本出图时,一个被反复验证的教训是:不要让 AI 在画面里写中文。

AI 图像模型生成中文时非常不稳定,经常出现错字、乱码、笔画变形,或者同一句话在画面里重复出现好几次。更干净的做法是:生成无文字插图,只在页面上方或下方预留空白区域,后期用 Canva、Figma 或者脚本批量加字。

字体方面,推荐圆润、清晰、适合儿童阅读的中文字体,比如站酷快乐体、霞鹜文楷、阿里妈妈方圆体。

角色统一靠”引用”,不靠祈祷

多页绘本最大的翻车点是角色不一致。这一页男孩是圆脸短发,下一页莫名变成了尖脸长刘海。不是模型的问题,是没有给模型一个稳定的锚点。

解决办法很简单:在生成任何视觉 Prompt 之前,先建一张角色设定表。每个主要角色固定外貌、服装、性格,并且要求后续每一页的 Prompt 都明确引用这份设定。比如”男孩:5-7 岁,圆脸,短发黑色,穿橙色卫衣和深蓝短裤,性格好奇爱笑,禁止改变发型和年龄”。

一个参照案例

文档里给了一个完整的故事转化案例,原始碎碎念是一个孩子讲的”水瓶不见了”的故事:

晚上十点买了一瓶水,第二天发现水不见了,找女人侦探帮忙。唯一线索是水瓶上有非常小的碎冰。他们找到冰块山,山旁边有咖啡、茶和迷你小东西。企鹅突然出现,男孩被吓一跳。企鹅以为他们在搞自己的窝。后来大家道歉,搬开冰块找到水瓶,互相说再见各自回家。

这个故事里有几个成年人绝对编不出来的亮点:水瓶没有脚但大家还是去找它;碎冰是唯一的线索但完全不合理;企鹅出现没有任何铺垫。这些恰好是绘本最好的素材。

从这段碎碎念出发,六步 Prompt 链可以得到完整的角色设定、12-16 页分镜、每页 1-3 句绘本文字和对应的中英文页面 Prompt。

适合什么场景

这套 Prompt 链不是万能工具。它适合的场景很具体:孩子口述了故事、想保留原汁原味的童趣、需要把它变成看得见摸得着的绘本。不适合的场景是:追求高度写实画风、需要复杂叙事结构、或者想一键出图不做后期。

另外,文档里明确建议用横向 4:3 比例出图,因为更适合展示场景和角色互动。文字区域优先放页面上方或下方留白处,不能遮挡人物脸部、手部动作和关键物品。

在实际测试中,用 gpt-image-2 跑这套 Prompt 链效果不错。不同模型对 Prompt 的响应有差异,但核心逻辑是通用的:先提取、后整理、再分镜、最后生成,每一步都有明确约束,不给 AI 自由发挥的空间。


想少踩一点 AI 工具的坑?

后面会继续写 AI Agent、自动化、个人知识库和真实项目实践。关注后,看新工具不必从零开始猜。