腾讯Photomakerv2 人类高质量人像 无需训练Lora 整合包

2024-08-01 12:18:22 浏览数 (3)

只需要几张图片,甚至一张图片,无需训练Lora,快速定制人脸一致性的高质量,注意是高质量人像,任何人,多种风格,支持了windows,mac,comfyui(V1版本)目前V2只能通过整合包的形式使用,目前实际测试下来,人像表现真的皮肤质感超级好,而且速度优化提升了90%,官方给出的显存占用是11G,windows整合包准备好了,解压使用视频在下面,V1版本的Comfyui工作流也放在了里面,另外Comfyui的直出无需任何放大插件的工作流,中文直出工作流也为大家准备好啦~~有兴趣的也可以免费分享~~~

目前Photomaker支持了webui,comfyui,forge,独立部署等等,如果你这些都不想下,可以下载整合包一键安装所有AI项目 再见了整合包,或者直接在线运行~~

此模型在 Nvidia A40(大型)GPU 硬件上运行。预测通常在 27 秒内完成。

原图:

生成

温馨提示公众号已开启留言功能哦,点击上方蓝色字,回复关键字【100】领取一键安装包~~码字不易,希望大家点赞收藏在看~~

官方項目

代码语言:javascript复制
git地址:https://github.com/TencentARC/PhotoMaker
项目地址:https://photo-maker.github.io/
论文地址:https://huggingface.co/papers/2312.04461
在线运行:https://huggingface.co/spaces/TencentARC/PhotoMaker-V2

官方示例

更新V2部分:

ID保真度得到了进一步提高,特别是对于单张图像输入和亚洲面部输入。当然,输入更多的面部图像仍然可以产生更好的结果。

通过集成ControlNet、T2I-Adapter和IP-Adapter,生成过程变得更加可控。我们提供了相应的脚本供参考。此外,PhotoMaker V2允许用户通过结合IP-Adapter-FaceID、InstantID和角色LoRA来实现更好的身份一致性。

PhotoMaker V2继承了PhotoMaker V1的有前途特性,如高质量和多样化的生成能力,以及强大的文本控制功能。此外,它仍然可以整合以前的应用程序,比如将旧照片或画作中的人物带回现实、身份混合以及改变年龄或性别。

一致性原理

我们首先分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。然后,我们通过合并相应的类嵌入(例如,男性和女性)和每个图像嵌入来提取融合嵌入。接下来,我们将所有沿长度维度的融合嵌入连接起来,形成堆叠的 ID 嵌入。最后,我们将堆叠的 ID 嵌入馈送到所有交叉注意力层,以便自适应地合并扩散模型中的 ID 内容。需要注意的是,虽然我们在训练过程中使用相同 ID 的图像和被屏蔽的背景,但我们可以在推理过程中直接输入不同 ID 的图像,而不会出现背景失真,从而创建新的 ID。

使用提示:

出现以下报错可以忽略

当看到这里Loading就是可以了

  • 上传更多要自定义的人员照片,以提高 ID 保真度。如果输入是亚洲面孔,可以考虑在类词前添加“亚洲人”,例如,Asian woman img
  • 在进行造型化时,生成的脸部看起来是否过于逼真?将样式强度调整为 30-50,数字越大,ID 保真度越低,但风格化能力会更好。您还可以尝试其他具有良好风格化效果的基础模型或 LoRA。
  • 减少生成的图像数量和采样步骤,以提高速度。但是,请记住,减少采样步骤可能会影响 ID 保真度。
  • 上传图片中的人脸应占据图片的大部分
  • 上传更多要定制的人的照片,以提高身份证的可信度。
  • 当您输入文本提示时,请确保在要自定义的类词后面加上触发词:img,例如:“man img”或“woman img”或“girl img”。如果输入的是亚洲面孔,请考虑在类词前添加“亚洲人”,例如,“亚洲女人img”
  • 在进行造型化时,生成的脸部看起来是否过于逼真?将样式强度调整为 30-50。数字越大,身份越少,但风格化能力会更好。您还可以尝试其他具有良好风格化效果的基础模型或 LoRA。
  • 为了获得更快的速度,请减少生成的图像数量和采样步骤。但是,请注意,减少采样步骤可能会影响 ID 保真度

windows使用教程

V1 vs V2效果

0 人点赞