AI影视系列：图像生成（1） | 关于AI绘画的那些工具盘点

好了，正式开启我们的分享~

本部分主要分享AI绘画生成的工具&大模型介绍，由于是基础软件介绍，所以不会涉及过多深入的理论。

DALL·E 3

DALL·E 3是一款由OpenAI开发的图像生成模型，它通过深度学习技术将自然语言描述转换为图像。

DALL·E 3为创意产业、科研和教育等多个领域带来了生命力。

原理涉及文本理解、图像生成、优化与反馈等多个步骤，使用了transformer架构和多种图像合成技术。

相较于MJ等其他AI绘画工具，他可以听懂大白话，帮助用户实现脑中的想法。

DALL E3模板

代码语言：javascript复制

- 背景: 舞池,昏暗灯光，人潮拥护, 大家都在享受音乐，摇摆身体
- 主角: 一个 20 岁的日本女性,正在人群中间跳舞
- 脸部: 闭着双眼,神情陶醉,沉浸在音乐中, 嘴角微微上扬
- 发型: 一头黑色长发垂落，露出一侧的耳朵
- 服装: 穿着黑色夏天便装, 清凉动感
- 姿势: 身体随着音乐扭动, 照片中的她身材刚好形成了一个S 型曲线

用DALL E3生成四格漫画。

代码语言：javascript复制

1. 一个头发灰白, 但精致梳理的老头, 在河边钓鱼
2. 一个双马尾的小女孩, 在老人旁边默默地盯着水面
3. 老人抬杆, 中了一尾红色鲤鱼
4. 一个小女孩在老人旁边开心地蹦跳, 庆祝钓上了鱼

使用 Monochrome Storyboard style，结合上述描述拆分的画面，每个场景矩阵式排列，画面旁边有描述场景的注释

DALL·E 3的应用领域广泛，包括创意产业、教育与研究、媒体与娱乐以及广告与市场营销等。

Midjourney

Midjourney是一个独立的研究实验室，专注于探索新的思维媒介，并扩展人类想象力。它由一个小而自给自足的团队组成，专注于设计、人类基础设施和AI。

MJ 就是一个人工智能绘图平台。它于2022年7月12日首次进行公测，并于2022年3月14日正式以架设在 Discord 上的服务器形式推出，用户直接注册 Discord 并加入 MJ 的服务器即可开始 AI 创作。

MJ在discord的社区

midjourney网页版上线，新用户目前拥有25次免费图像生成权益，在免费额度使用完后，须开通订阅会员才可以继续使用。

VHS still from the Iron Sky film directed by Adamski from 1979. Scene of a German Haunebu UFO flying saucer flying on the moon. Cassette futurism. Mars in the background. Shot on Kodak Gold film stock. --ar 4:3 --stylize 750 --v 6.1

a beauty

Midjourney利用深度学习技术和生成对抗网络(GAN)，能够根据用户提供的文字描述或草图，自动生成符合要求的视觉图像。

它的应用场景广泛，包括设计工作辅助、艺术创作、教育与培训等。

Stable Diffusion

Stable Diffusion是一种潜在扩散模型（Latent Diffusion Model），能够从文本描述中生成图像。

可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。

我们只要给出想要的图片的文字描述，在Stable Diffusion就能生成符合你要求的逼真的图像！

Stable Diffusion WebUI

Stable Diffusion WebUI是一个用户界面，常常是为了简化Stable Diffusion模型的使用而设计的。

允许用户通过一个更友好、可视化的网页界面来与Stable Diffusion模型互动，而不需要直接操作底层代码或终端命令。

界面让那些没有深度学习或编程经验的用户也能够轻松生成图像。

使用秋葉大佬的整合包进行安装

Stable Diffusion模型适合需要图像创作的领域，如设计、演示或创意构思。

Stable Diffusion ComfyUI

ComfyUI是一个为Stable Diffusion设计的图形用户界面和后端系统，它提供了一个模块化和功能强大的平台，使用户能够通过节点构建复杂的图像生成工作流程。

ComfyUI支持一键加载工作流，加快图像生成速度，并提供丰富的自定义选项。

适合数字艺术家、设计师、摄影师、AI研究人员和开发者、视频制作者、博客作者、社交媒体影响者、教育工作者、游戏和动画制作人员以及产品设计师。

目前可以在liblib AI可以在线使用comfyui。

有很多的开放的工作流，能不能使用就难说......

腾讯混元

腾讯推出的"混元生图"是行业内首款集成了多轮图文多模态对话和图像编辑工具的人工智能产品。

----> 首个中文原生的DiT架构开源模型，腾讯混元文生图大模型全面开源

官网地址：https://image.hunyuan.tencent.com/

不仅能够通过自然语言和图像输入实现文本到图像以及图像到文本的转换，还支持多轮对话功能。

文生图技术根据用户描述生成图像并标注关键词，图生文则为图像自动配文并允许二次编辑。

多条件生成图和文字功能结合图像与描述，通过多轮对话生成相关图文或文本。

用户还可以通过调出精细调整面板，对生成的图像进行进一步编辑，从而精确控制生成内容。这为创作、设计和故事生成等场景提供了一个强大且灵活的解决方案。

腾讯混元文生图大模型已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，免费供所有企业与个人开发者使用。

体验方式一：可以在腾讯云体验！

体验链接：https://console.cloud.tencent.com/hunyuan/experience/image

选择水墨画风格的

选择青花瓷风格的

体验方式二：

liblib AI：

https://www.liblib.art/modelinfo/a9f729579d634c46a9ced27b9addd864?from=sd

快手Kolors

Kolors 是一个基于潜在扩散的大规模文本到图像生成模型，在数十亿个文本-图像对上训练而成。

----> 继国产版sora可灵AI之后，快手可图大模型Kolors全面开源

官网地址：https://kwai-kolors.github.io/

Github 项目地址：https://github.com/Kwai-Kolors/Kolors

Huggingface模型地址：https://huggingface.co/Kwai-Kolors/Kolors

技术报告地址：

https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf

据官方介绍，Kolors 在图像生成质量、复杂提示词理解、字符文本内容渲染等方面都有优异表现，尤其擅长生成高质量、细节清晰的人像图片。

可图（Kolors）在人像、建筑、动物、超现实、风格化、中国元素等多个类目均有出色表现。

High-quality Portrait

Chinese Elements Generation

Complex Semantic Understanding

Text Rendering

可图（Kolors）是第一个原生支持中文文字生成的文生图模型（无Control逻辑）。

在线体验地址：https://klingai.kuaishou.com/text-to-image

FLUX

FLUX是由Black Forest Labs推出的一款最新的文本生成图像模型。

FLUX模型全名为FLUX.1，包含三个版本：FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell]，分别针对不同的使用场景和需求。

FLUX.1 [pro]是闭源模型，提供最佳性能；FLUX.1 [dev]是开源模型，不可商用；FLUX.1 [schnell]是专为本地开发和个人使用量身定制的开源模型。

在线Demo：

https://replicate.com/black-forest-labs/flux-pro
https://replicate.com/black-forest-labs/flux-dev
https://replicate.com/black-forest-labs/flux-schnell

GitHub仓库：

https://github.com/black-forest-labs/flux

HuggingFace模型库：

https://huggingface.co/black-forest-labs/FLUX.1-schnell

代码语言：javascript复制

Artistic interpretation of the human consciousness and subconsciousness

代码语言：javascript复制

The world's largest black forest cake, the size of a building, surrounded by trees of the black forest

代码语言：javascript复制

a tiny astronaut hatching from an egg on the moon

FLUX模型采用了创新的混合架构，融合了多模态处理能力和并行扩散机制的Transformer技术，并扩展至高达120亿个参数。

ideogram 2.0

Ideogram是一个文本到图像的AI生成工具，它让创意表达变得轻松、有趣，同时效率倍增。

目前支持：

AI文本到图像生成：输入简单的文本提示词描述即可生成各种场景和画面
多种风格的创意表达：支持如摄影、插画、3D、海报、时尚、动漫、建筑、艺术字等多种图像风格
灵活的图像尺寸比例：Ideogram AI目前提供10:16、1:1和16:10三种不同比例的图像生成
支持图像混合模式：用户可选择图像进行remix，使用新的提示词将现有图像进行微调和更改风格

ideogram支持写实、设计、3D、动漫等类别风格。

prompt：

A 3D render of a beautifully presented steaming cup of coffee. The cup and saucer are white with intricate gold details. There is a delicate orchid with red spots on its petals next to the cup. Next to the orchid is a small, elegant note. The note "Good Morning Have a Nice Day Sahabat Hebatku," is written in elegant cursive. The general atmosphere of the image is warm and welcoming, with soft, natural light that illuminates the scene.

同时支持Magic Prompt，丰富图片多样性，优化prompt。

更多案例：3月份想用AI生成海报的梦，今天ideogram帮我实现了

如果觉得不错，欢迎点赞、在看、转发，您的转发和支持是我不懈创作的动力~

工具模型设计 AI绘画开源

2 人点赞