PhotoMaker 腾讯推出个性化图像生成新高度;LawInstruct 首个法律大型指令数据集上线

2024-07-01 13:10:26 浏览数 (2)

PhotoMaker 是由腾讯与南开大学联合开发的 AI 图像生成工具,不仅能够捕捉人物的面部特征,还能根据喜好生成逼真的人物图像,将个性化定制推向了新高度。无论是想要一个全新的社交媒体头像,还是为游戏设计独特的角色都能满足。

该项目的一键运行 Demo 教程现已上线 hyper.ai 官网,为了让大家更方便快捷地体验该模型,还上线了 ComfyUI 工作流版本,生成速度更快!更多自定义形式可选!快来体验一下~

6 月 17 日-6 月 21 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质教程精选:2 个

* 社区文章精选:4 篇

* 热门百科词条:5 条

* 6-7 月截稿顶会:5 个

访问官网:hyper.ai

公共数据集精选

1. TreeOfLife-10M 生物图像数据集

该数据集拥有超过 1,000 万张图像,涵盖生命之树中的 45.4 万个分类单元,是迄今为止最大的 ML 生物有机体图像及其相关分类标签的数据集。研究成果论文为 CVPR 2024 的最佳论文。

直接使用:https://go.hyper.ai/jimyx

2. HAR 15 种人体动作识别数据集

该数据集是一个基包含 15 种不同类别的人类活动,约 12k 张标记图像(包括验证图像),每个图像只有一个人类活动类别,旨在理解人类行为并为每个动作分配标签。

直接使用:https://go.hyper.ai/3jmf1

3. Linux 中国原创文章数据集

该数据集为 Linux 中国原创技术文章 翻译技术文章的数据集,提供了文章标题、内容等多个字段。

直接使用:https://go.hyper.ai/KgFgf

4. DroneVehicle 大规模无人机航拍车辆检测数据集

该数据集由无人机采集的共 56,878 幅图像组成,其中一半为 RGB 图像,其余为红外图像。该数据集为智能城市交通管理和灾难救援提供了支持。

直接使用:https://go.hyper.ai/KhbuB

5. PianoMotion10M 钢琴演奏手势生成数据集

该数据集是一个专注于钢琴演奏手势生成的基准测试数据集,涵盖了从鸟瞰视角拍摄的 116 小时的钢琴演奏视频,并包含了 1,000 万个标注的手部姿势。这些数据提供了丰富的资源以探索钢琴音乐与手部动作之间的关联。

直接使用:https://go.hyper.ai/QAOi8

6. LawInstruct 首个法律大型指令数据集

该数据集是首个面向法律领域的大型指令数据集,涵盖了 17 个司法管辖区和 24 种语言,包含 1200 万个训练示例,覆盖问答、蕴含、摘要和信息提取等多种法律任务。

直接使用:https://go.hyper.ai/ARN3n

7. ASL 字母表手语数据集

该数据集包含了美国手语的字母图像,这些图像被分为 29 个类别,代表不同的手语字母和符号。数据集中的图像尺寸统一为 200×200 像素,训练数据集包含 87,000 张图像。

直接使用:https://go.hyper.ai/IhhZc

8.「 .csv 格式」的 A-Z 手写字母数据集

该数据集是一个大规模的英文手写字母图像集合,专为手写识别任务而设计,可以用于训练各种图像识别模型。

直接使用:https://go.hyper.ai/28lwk

9. CAT dataset 猫猫面部特征注释图像数据集

该数据集包含超过 9,000 张带有面部特征注释的猫图像。每张图片都有猫头的注释,其中有 9 个点:1 个表示嘴巴,2 个表示眼睛,6 个表示耳朵。

直接使用:https://go.hyper.ai/MkmTu

10. Audio Cats and Dogs 猫狗音频数据集

该数据集包含上百个猫和狗的音频类别「wav」文件:其中猫有 164 个 WAV 文件,对应 1,323 秒的音频;狗有 113 个 WAV 文件,对应 598 秒的音频。所有「wav」文件都包含 16KHz 音频并且长度可变。

直接使用:https://go.hyper.ai/e0RGg

更多公共数据集,请访问:

https://hyper.ai/datasets

公共教程精选

1. PhotoMaker 任意风格化图像生成 Demo

PhotoMaker 是一个高效的人像定制文生图模型,可以快速地根据人物照生成定制的人物照片和艺术照片。除了生成个性化人物照片以外,它还能改变人物的年龄和性别,整合不同人物的特征创造新的人物信息,是一款非常使用的 AI 绘画工具。该教程已经搭建好了环境,方便大家运行体验。

在线运行:https://go.hyper.ai/3B5Rd

2. ComfyUI PhotoMaker ZHO 图像生成工作流

该教程是 PhotoMaker 的 ComfyUI 工作流运行方法,和 Gradio 版的 Demo 相比,ComfyUI 工作流版本具有生成速度更快、支持节点拆分和自定义尺寸等优势。超神经已经为大家搭建好了相关环境,一键克隆即可运行。

在线运行:https://go.hyper.ai/XdSoQ

3. 基于 HuBERT 实现歌曲风格分类

该教程用基模型 HuBERT 来演示如何使用预训练的音频模型执行音频分类任务,通过在预训练模型上进行微调,实现音乐风格分类。

在线运行:https://go.hyper.ai/7QjRj

0 人点赞