DALL-E3 | (2)原理

2023-10-23 17:35:17 浏览数 (1)

DALL·E 3 System Card

2023年10月3号,由OpenAI发布

1 Introduction

  • DALL-E 3 是一个人工智能系统,它将文本提示作为输入,并生成新图像作为输出。DALL-E 3 建立在 DALL-E 2的基础上,提高了字幕保真度和图像质量
  • DALL-E 3 集成到了 ChatGPT / GPT-4中,流程是: 用户提供相对模糊的图像请求描述 -> GPT4 -> 生成细节提示词 -> DALL-E 3 -> 生成高质量细节图像(降低了用户描述和图像质量的GAP)
1.1 Mitigation Stack
  • 数据过滤:暴力等不健康的内容
  • 过滤算法:在DALL-E 2基础上,降低了暴力等宽泛过滤阈值。降低这些过滤器的选择性,可以增加我们的训练数据集,减少模型对生成女性的偏差
  • 安全措施:
    • ChatGPT:会拒绝用户输入的不健康内容
    • 提示输入分类器:识别ChatGPT和用户对话中可能侵犯使用政策的信息并拒绝
    • 拦截列表:我们根据以前在 DALL-E 2 上的工作、主动风险发现和早期用户的结果,维护了各种类别的文本屏蔽列表
    • 提示转化:ChatGPT 可改写已提交的文本,以便更有效地进行提示 DALL-E 3 更有效。该流程还用于确保提示符合我们的准则,包括删除公众人物的名字,以特定属性的人物为基础、并以通用方式书写品牌对象
    • 图像输出分类器: 开发了图像分类器,可对 DALL-E 3 生成的图像进行分类。如果这些分类器被激活,可能会在输出之前阻止图像。

2 Deployment Preparation

早起版本中先测试,分析了这些部署所产生的数据,以进一步改进 DALL-E 3 在风险领域的行为,如公众人物世代、人口偏见和sexual内容。我们发现,在试验中,包含人物描写的图片主要倾向于白人、年轻人和女性。为此,我们调整了 ChatGPT 的的用户提示转换,以指定更多样化的人物描述。

  • 大量的风险分析以及分类器等缓解措施,降低不健康内容的出现概率

image-20231011115616205

image-20231011115537430

image-20231011115527139

  • ......,侵权的不行,那还搞啥,他喵的!
  • 比如艺术家风格作品,不行
  • 比如公众人物,不行
  • 比如不穿衣服,不行

image-20231011115000785

  • 描述越详细越好,也就是附加多种属性

image-20231011115254636

  • 年龄、性别、人种分布(20-29岁,白种人,女性 占大头)

image-20231011115416813

3 DALL-E 3 体验入口

微软的Bing浏览器可以,但是国内被屏蔽

  • https://bing.com/chat
  • https://cn.bing.com/create

4 改进总结

  • DALL-E 2 原理
    • CLIP文本编码器将图像描述映射到表示空间;
    • 然后扩散先验从CLIP文本编码映射到相应的CLIP图像编码;
    • 最后,修改版的GLIDE生成模型通过反向扩散从表示空间映射到图像空间,生成众多可能图像中的一个
    • 海量数据对

image-20231011120509580

  • DALL-E 3 改进
    • 最大的改进,就是样本质量的提高,其次模型结构微调了(论文未披露),最后就是GPT加持提示词转化精度更高

0 人点赞