大家好,我是阿潘,今天跟大家分享一个用 AI 生成漫画算法, 源码放在下面了哈
https://github.com/adymaharana/storydalle
https://arxiv.org/abs/2209.06192
StoryDALL-E 是为故事可视化任务训练的模型。
该模型接收一系列字幕作为输入,并生成相应的图像序列,这些图像形成了描述字幕中叙述的视觉故事。
我们修改此任务以使模型能够接收初始场景作为输入,该场景可用作故事设置的提示,也可用于生成看不见或资源不足的视觉元素。[
StoryDALL-E 基于 [dalle](https://github.com/kakaobrain/minDALL-E) 模型。此模型仅用于学术目的。
数据集
该模型已使用 Pororo 故事数据集进行了可视化训练。
数据改编自热门卡通系列Pororo the Little Penguin
Pororo 数据集包含 9 个重复出现的角色,如下所示,按照它们在训练数据中出现的频率降序排列。
训练数据集包含近万个样本,大部分场景发生在雪村,周围有山丘、树木和房屋,少数场景位于花园或水体中,主要包含现在时动词。
此外,该模型的训练从 mega-dalle 的预训练检查点开始,该检查点对来自数十亿网页的概念字幕数据集的 1500 万张图像进行训练。
应用
该模型旨在生成包含 Pororo 数据集中 9 个字符的视觉故事。
- 包含单个字符的帧。
- 公开的视觉动作,例如制作饼干、走路、读书、坐着。
- 场景发生在雪地、室内和花园中。
- 在所有帧中包含 1-3 个角色的视觉故事。
- 场景转换,例如从白天到黑夜。
以下是为上述设置生成的视觉故事的一些示例。
由于故事可视化的训练数据集较小,该模型对一些看不见的设置的泛化能力很差。
- 一帧中的多个字符。
- 非视觉动作,例如赞美
- 训练数据集中不常见的角色,例如 Rody、Harry。
- 卡通中没有的背景位置
- 对象的基于颜色的描述。
- 基于文字描述的全新字符。
总之,我们发现该模型在将所有帧中最多三个角色的故事可视化方面表现良好,并且难以为三个以上的字符生成连贯的视觉效果。
该模型从源图像中复制视觉元素,并复制到故事中生成的每个帧,从而通过对初始场景的调节来保持叙述的连续流动。
StoryDALL-E 在生成明显的视觉动作方面表现最好,并且能够通过在可能的情况下利用 DALL-E Mega 的预训练知识来生成没有出现在故事延续数据集中的语义概念,例如 doughnut 和 lion。
Pororo 数据集中的大部分场景都发生在一个白雪皑皑的村庄,那里有被树木和雪包围的木屋。
References
[1] Maharana, Adyasha, et al. "StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation." ECCV. 2022.
[2] Li, Yitong, et al. "Storygan: A sequential conditional gan for story visualization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
[3] Kim, Kyung-Min, et al. "DeepStory: video story QA by deep embedded memory networks." Proceedings of the 26th International Joint Conference on Artificial Intelligence. 2017.
[4] Sharma, Piyush, et al. "Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning." Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018.
[5] Mitchell, Margaret, et al. "Model cards for model reporting." Proceedings of the conference on fairness, accountability, and transparency. 2019.