免费商用!混元文生图大模型全面开源,不仅包括训练的全部过程和文档,附带的插件还可以使用一张图生成定制的专属的模型

2024-07-01 14:53:19 浏览数 (2)

近日,腾讯的混元文生图大模型宣布全面开源训练代码,并对外发布了混元 DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这标志着全球的企业与个人开发者、创作者们可以基于混元DiT训练代码进行精调,创建更具个性化的专属模型,进而进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。

混元DiT作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。此外,该模型支持中英文双语输入及理解,极大方便了中文用户。在模型性能方面,GitHub Star数达到2.4k,位于开源社区热门DiT模型前列,证明了其优异的性能和广泛的认可。

LoRA技术(Low-Rank Adaptation of Large Language Models)用于微调大型语言模型,在文生图模型中,LoRA被用作插件,允许用户利用少量数据训练出具有特定画风、IP或人物特征的模型。这种技术的引入,使得混元DiT模型的开源生态更具想象力和创造力。例如,开发者仅需一张图即可创作出专属的模型,大大降低了创作门槛。

ControlNet插件则是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。这包括能提取与应用图像的边缘(canny)、深度(depth)、人体姿势(pose)等条件,进一步增强了生成图像的多样性和控制度。

腾讯混元团队一直在持续完善和优化基于混元 DiT 的开源组件,与行业共建下一代视觉生成开源生态。例如,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%,模型易用性也大幅提升。

在实际应用方面,混元文生图能力已广泛用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型发布了一站式AI广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。

总结来说,腾讯混元文生图大模型的全面开源不仅填补了中文原生DiT文生图架构的空白,也为更多的开发者和创作者提供了参与和探索的机会,共同推动视觉生成技术的发展。这一策略不仅展现了腾讯在文生图领域的技术积累和开放态度,也助力于构建一个更加丰富和多样化的中文开源生态系统。

0 人点赞