UniColor - 使用 Transformer 进行多模态着色的统一框架 !论文速递2022.9.28!

2022-12-11 12:43:16 浏览数 (1)

整理:AI算法与图像处理

CVPR2022论文和代码整理:https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo

ECCV2022论文和代码整理:https://github.com/DWCTOD/ECCV2022-Papers-with-Code-Demo

最新成果demo展示:

UniColor - 使用 Transformer 进行多模态着色的统一框架

主页:https://luckyhzt.github.io/unicolor

摘要:

我们提出了第一个统一框架 UniColor 来支持多种模式的着色,包括无条件和有条件的,例如笔画、示例、文本,甚至它们的混合。我们没有为每种类型的条件学习单独的模型,而是引入用于将各种条件合并到单个模型中的两阶段着色框架。在第一阶段,将多模态条件转换为提示点的共同表示。在第二阶段,我们提出了一个基于 Transformer 的网络,由 Chroma- VQGAN 和 Hybrid-Transformer 可根据提示点生成多样化和高质量的着色结果。定性和定量比较都表明,我们的方法在每种控制模态中都优于最先进的方法,并进一步实现了多模态着色以前不可行。tive 界面展示了我们统一框架在实际使用中的有效性,包括自动着色、混合控制着色、局部重新着色和迭代颜色编辑。


最新论文整理

ECCV2022

Updated on : 28 Sep 2022
total number : 7

StyleSwap: Style-Based Generator Empowers Robust Face Swapping

  • 论文/Paper: http://arxiv.org/pdf/2209.13514
  • 代码/Code: None

AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition

  • 论文/Paper: http://arxiv.org/pdf/2209.13465
  • 代码/Code: None

UAV-based Visual Remote Sensing for Automated Building Inspection

  • 论文/Paper: http://arxiv.org/pdf/2209.13418
  • 代码/Code: None

DELTAR: Depth Estimation from a Light-weight ToF Sensor and RGB Image

  • 论文/Paper: http://arxiv.org/pdf/2209.13362
  • 代码/Code: None

Globally Optimal Event-Based Divergence Estimation for Ventral Landing

  • 论文/Paper: http://arxiv.org/pdf/2209.13168
  • 代码/Code: None

Diversified Dynamic Routing for Vision Tasks

  • 论文/Paper: http://arxiv.org/pdf/2209.13071
  • 代码/Code: None

Totems: Physical Objects for Verifying Visual Integrity

  • 论文/Paper: http://arxiv.org/pdf/2209.13032
  • 代码/Code: None

CVPR2022

NeurIPS

Updated on : 28 Sep 2022
total number : 6

Learning State-Aware Visual Representations from Audible Interactions

  • 论文/Paper: http://arxiv.org/pdf/2209.13583
  • 代码/Code: https://github.com/HimangiM/RepLAI

Motion Transformer with Global Intention Localization and Local Movement Refinement

  • 论文/Paper: http://arxiv.org/pdf/2209.13508
  • 代码/Code: https://github.com/sshaoshuai/MTR.

UniCLIP: Unified Framework for Contrastive Language-Image Pre-training

  • 论文/Paper: http://arxiv.org/pdf/2209.13430
  • 代码/Code: None

Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval

  • 论文/Paper: http://arxiv.org/pdf/2209.13307
  • 代码/Code: None

EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations

  • 论文/Paper: http://arxiv.org/pdf/2209.13064
  • 代码/Code: None

Efficient Non-Parametric Optimizer Search for Diverse Tasks

  • 论文/Paper: http://arxiv.org/pdf/2209.13575
  • 代码/Code: None

0 人点赞