CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering
标题:TextDiffuser-2:释放语言模型用于文本渲染的力量
作者:Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
文章链接:https://arxiv.org/abs/2311.16465
项目代码:https://github.com/microsoft/unilm/tree/master/textdiffuser-2
摘要:
近年来,扩散模型已被证明是一种强大的生成模型,但在生成视觉文本方面仍然是一个挑战。有几种方法通过合并明确的文本位置和内容作为呈现文本的位置和内容的指导来缓解这个问题。然而,这些方法仍然存在一些缺点,例如灵活性和自动化程度有限、布局预测能力有限以及风格多样性有限。在本文中,我们提出了 TextDiffuser-2,旨在释放语言模型用于文本渲染的力量。首先,我们微调用于布局规划的大型语言模型。大语言模型能够自动生成关键词进行文本渲染,还支持通过聊天修改布局。其次,我们利用扩散模型中的语言模型对行级别的位置和文本进行编码。与之前采用严格字符级指导的方法不同,这种方法生成更加多样化的文本图像。我们进行了广泛的实验,并结合了涉及人类参与者和 GPT-4V 的用户研究,验证了 TextDiffuser-2 实现更合理的文本布局和生成并增强多样性的能力。
2.Surf-D: High-Quality Surface Generation for Arbitrary Topologies using Diffusion Models
标题:Surf-D:使用扩散模型为任意拓扑生成高质量表面
作者:Zhengming Yu, Zhiyang Dou, Xiaoxiao Long, Cheng Lin, Zekun Li, Yuan Liu, Norman Müller, Taku Komura, Marc Habermann, Christian Theobalt, Xin Li, Wenping Wang
文章链接:https://arxiv.org/abs/2311.17050
项目代码:https://yzmblog.github.io/projects/SurfD/
摘要:
在本文中,我们提出了 Surf-D,这是一种使用扩散模型生成具有任意拓扑的高质量 3D 形状表面的新颖方法。具体来说,我们采用无符号距离场(UDF)作为表面表示,因为它擅长处理任意拓扑,从而能够生成复杂的形状。虽然先前的方法探索了具有不同表示形式的形状生成,但它们受到有限的拓扑和几何细节的影响。此外,将先前的扩散模型直接扩展到 UDF 并非易事,因为它们由于离散体积结构而缺乏空间连续性。然而,UDF 需要精确的梯度来进行网格提取和学习。为了解决这些问题,我们首先利用基于点的自动编码器来学习紧凑的潜在空间,该空间支持通过微分对任何输入点进行梯度查询,从而以高分辨率有效捕获复杂的几何形状。由于各种形状的学习难度可能不同,因此采用课程学习策略来有效地嵌入各种表面,从而增强整个嵌入过程。通过预训练的形状潜在空间,我们采用潜在扩散模型来获取各种形状的分布。我们的方法展示了跨多种模式的形状生成的卓越性能,并在无条件生成、类别条件生成、图像 3D 重建和文本到形状任务方面进行了广泛的实验。
3.Learning to Skip for Language Modeling
标题:学习跳过语言建模
作者:Dewen Zeng, Nan Du, Tao Wang, Yuanzhong Xu, Tao Lei, Zhifeng Chen, Claire Cui
文章链接:https://arxiv.org/abs/2311.15436
摘要:
过度参数化的大规模语言模型在上下文中的小样本学习中具有令人印象深刻的泛化性能。然而,大多数语言模型为每个标记分配相同数量的参数或计算,而忽略输入数据的复杂性或重要性。我们认为,在语言模型预训练中,应该将可变的计算量分配给不同的标记,这可以通过简单的路由机制有效地实现。与传统的早期停止技术(令牌只能在早期层提前退出)不同,我们提出了一种更通用的方法,可以使用二进制路由器动态跳过任何输入令牌的层(或模块)的执行。在我们对 24 个 NLP 任务的广泛评估中,我们证明,与其他竞争基线相比,所提出的方法可以显着提高 1-shot 性能,而只需少量额外的推理成本。