DALL-E3 | （2）原理

2023-10-23 17:35:17 浏览数 (1)

DALL·E 3 System Card

2023年10月3号，由OpenAI发布

1 Introduction

DALL-E 3 是一个人工智能系统，它将文本提示作为输入，并生成新图像作为输出。DALL-E 3 建立在 DALL-E 2的基础上，提高了字幕保真度和图像质量。
DALL-E 3 集成到了 ChatGPT / GPT-4中，流程是： 用户提供相对模糊的图像请求描述 -> GPT4 -> 生成细节提示词 -> DALL-E 3 -> 生成高质量细节图像（降低了用户描述和图像质量的GAP）

1.1 Mitigation Stack

数据过滤：暴力等不健康的内容
过滤算法：在DALL-E 2基础上，降低了暴力等宽泛过滤阈值。降低这些过滤器的选择性，可以增加我们的训练数据集，减少模型对生成女性的偏差
安全措施：
- ChatGPT：会拒绝用户输入的不健康内容
- 提示输入分类器：识别ChatGPT和用户对话中可能侵犯使用政策的信息并拒绝
- 拦截列表：我们根据以前在 DALL-E 2 上的工作、主动风险发现和早期用户的结果，维护了各种类别的文本屏蔽列表
- 提示转化：ChatGPT 可改写已提交的文本，以便更有效地进行提示 DALL-E 3 更有效。该流程还用于确保提示符合我们的准则，包括删除公众人物的名字，以特定属性的人物为基础、并以通用方式书写品牌对象
- 图像输出分类器：开发了图像分类器，可对 DALL-E 3 生成的图像进行分类。如果这些分类器被激活，可能会在输出之前阻止图像。

2 Deployment Preparation

早起版本中先测试，分析了这些部署所产生的数据，以进一步改进 DALL-E 3 在风险领域的行为，如公众人物世代、人口偏见和sexual内容。我们发现，在试验中，包含人物描写的图片主要倾向于白人、年轻人和女性。为此，我们调整了 ChatGPT 的的用户提示转换，以指定更多样化的人物描述。

大量的风险分析以及分类器等缓解措施，降低不健康内容的出现概率

image-20231011115616205

image-20231011115537430

image-20231011115527139

......，侵权的不行，那还搞啥，他喵的！
比如艺术家风格作品，不行
比如公众人物，不行
比如不穿衣服，不行

image-20231011115000785

描述越详细越好，也就是附加多种属性

image-20231011115254636

年龄、性别、人种分布（20-29岁，白种人，女性占大头）

image-20231011115416813

3 DALL-E 3 体验入口

微软的Bing浏览器可以，但是国内被屏蔽

https://bing.com/chat
https://cn.bing.com/create

4 改进总结

DALL-E 2 原理
- CLIP文本编码器将图像描述映射到表示空间；
- 然后扩散先验从CLIP文本编码映射到相应的CLIP图像编码；
- 最后，修改版的GLIDE生成模型通过反向扩散从表示空间映射到图像空间，生成众多可能图像中的一个
- 海量数据对

image-20231011120509580

DALL-E 3 改进
- 最大的改进，就是样本质量的提高，其次模型结构微调了（论文未披露），最后就是GPT加持提示词转化精度更高

基础模型数据算法原理

0 人点赞