DALL·E 3 System Card
2023年10月3号,由OpenAI发布
1 Introduction
- DALL-E 3 是一个人工智能系统,它将文本提示作为输入,并生成新图像作为输出。DALL-E 3 建立在 DALL-E 2的基础上,提高了字幕保真度和图像质量。
- DALL-E 3 集成到了 ChatGPT / GPT-4中,流程是:
用户提供相对模糊的图像请求描述 -> GPT4 -> 生成细节提示词 -> DALL-E 3 -> 生成高质量细节图像
(降低了用户描述和图像质量的GAP)
1.1 Mitigation Stack
- 数据过滤:暴力等不健康的内容
- 过滤算法:在DALL-E 2基础上,降低了暴力等宽泛过滤阈值。降低这些过滤器的选择性,可以增加我们的训练数据集,减少模型对生成女性的偏差
- 安全措施:
- ChatGPT:会拒绝用户输入的不健康内容
- 提示输入分类器:识别ChatGPT和用户对话中可能侵犯使用政策的信息并拒绝
- 拦截列表:我们根据以前在 DALL-E 2 上的工作、主动风险发现和早期用户的结果,维护了各种类别的文本屏蔽列表
- 提示转化:ChatGPT 可改写已提交的文本,以便更有效地进行提示 DALL-E 3 更有效。该流程还用于确保提示符合我们的准则,包括删除公众人物的名字,以特定属性的人物为基础、并以通用方式书写品牌对象
- 图像输出分类器: 开发了图像分类器,可对 DALL-E 3 生成的图像进行分类。如果这些分类器被激活,可能会在输出之前阻止图像。
2 Deployment Preparation
早起版本中先测试,分析了这些部署所产生的数据,以进一步改进 DALL-E 3 在风险领域的行为,如公众人物世代、人口偏见和sexual内容。我们发现,在试验中,包含人物描写的图片主要倾向于白人、年轻人和女性。为此,我们调整了 ChatGPT 的的用户提示转换,以指定更多样化的人物描述。
- 大量的风险分析以及分类器等缓解措施,降低不健康内容的出现概率
image-20231011115616205
image-20231011115537430
image-20231011115527139
- ......,侵权的不行,那还搞啥,他喵的!
- 比如艺术家风格作品,不行
- 比如公众人物,不行
- 比如不穿衣服,不行
image-20231011115000785
- 描述越详细越好,也就是附加多种属性
image-20231011115254636
- 年龄、性别、人种分布(20-29岁,白种人,女性 占大头)
image-20231011115416813
3 DALL-E 3 体验入口
微软的Bing浏览器可以,但是国内被屏蔽
- https://bing.com/chat
- https://cn.bing.com/create
4 改进总结
- DALL-E 2 原理
- CLIP文本编码器将图像描述映射到表示空间;
- 然后扩散先验从CLIP文本编码映射到相应的CLIP图像编码;
- 最后,修改版的GLIDE生成模型通过反向扩散从表示空间映射到图像空间,生成众多可能图像中的一个
- 海量数据对
image-20231011120509580
- DALL-E 3 改进
- 最大的改进,就是样本质量的提高,其次模型结构微调了(论文未披露),最后就是GPT加持提示词转化精度更高