Subjects: cs.CV
1.Detecting Pretraining Data from Large Language Models
标题:从大型语言模型中检测预训练数据
作者:Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer
文章链接:https://arxiv.org/abs/2310.16789
项目代码:https://swj0419.github.io/detect-pretrain.github.io/
摘要:
尽管大型语言模型 (LLM) 得到了广泛部署,但用于训练它们的数据却很少公开。鉴于这些数据的规模令人难以置信,高达数万亿个代币,几乎可以肯定它包含潜在有问题的文本,例如受版权保护的材料、个人身份信息以及广泛报道的参考基准的测试数据。然而,我们目前无法知道这些类型的数据包含哪些以及所占的比例。在本文中,我们研究了预训练数据检测问题:在不知道预训练数据的情况下,给定一段文本和对 LLM 的黑盒访问,我们能否确定模型是否是根据所提供的文本进行训练的?为了促进这项研究,我们引入了一个动态基准 WIKIMIA,它使用模型训练之前和之后创建的数据来支持黄金真相检测。我们还引入了一种新的检测方法 Min-K% Prob,该方法基于一个简单的假设:在 LLM 下,未见过的示例很可能包含一些概率较低的离群单词,而见过的示例不太可能包含如此低概率的单词。Min-K% Prob 可以在不了解预训练语料库或任何额外训练的情况下应用,这与之前需要在与预训练数据相似的数据上训练参考模型的检测方法不同。此外,我们的实验表明,与之前的方法相比,Min-K% Prob 在 WIKIMIA 上实现了 7.4% 的改进。我们将 Min-K% Prob 应用到两个现实场景:受版权保护的书籍检测和受污染的下游示例检测,并发现它是一个始终有效的解决方案。
2.TeCH: Text-guided Reconstruction of Lifelike Clothed Humans
标题:TeCH:文本引导重建栩栩如生的衣着人类
作者:Yangyi Huang, Hongwei Yi, Yuliang Xiu, Tingting Liao, Jiaxiang Tang, Deng Cai, Justus Thies
文章链接:https://arxiv.org/abs/2308.08545
项目代码:https://huangyangyi.github.io/TeCH/
摘要:
尽管最近在从单个图像重建穿着衣服的人类方面取得了进展,但用高级细节准确地恢复“看不见的区域”仍然是一个尚未解决且缺乏关注的挑战。现有方法通常会生成过于光滑且纹理模糊的背面表面。但是如何从单个图像中有效地捕获个体的所有视觉属性,从而足以重建看不见的区域(例如,后视图)?在基础模型力量的推动下,TeCH 通过利用 1) 描述性文本提示(例如服装、颜色、发型)来重建 3D 人体,这些文本提示是通过服装解析模型和视觉问答 (VQA) 自动生成的,2) 个性化的微调文本到图像扩散模型(T2I),它可以学习“难以描述”的外观。为了以可承受的成本表示高分辨率的 3D 穿着人类,我们提出了一种基于 DMTet 的混合 3D 表示,它由显式的身体形状网格和隐式的距离场组成。在描述性提示 个性化T2I扩散模型的指导下,通过多视图分数蒸馏采样(SDS)和基于原始观察的重建损失来优化3D人体的几何和纹理。TeCH 生产出高保真 3D 人体服装,具有一致细腻的纹理和详细的全身几何形状。定量和定性实验表明,TeCH 在重建精度和渲染质量方面优于最先进的方法。该代码将在此 https URL 公开用于研究目的
3.HyperFields: Towards Zero-Shot Generation of NeRFs from Text
标题:HyperFields:从文本零样本生成 NeRF
作者:Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
文章链接:https://arxiv.org/abs/2310.17075
项目代码:https://threedle.github.io/hyperfields/
摘要:
我们引入了 HyperFields,这是一种通过单次前向传递和(可选)一些微调来生成文本条件神经辐射场 (NeRF) 的方法。我们方法的关键是:(i)动态超网络,它学习从文本标记嵌入到 NeRF 空间的平滑映射;(ii) NeRF 蒸馏训练,它将各个 NeRF 中编码的场景蒸馏成一个动态超网络。这些技术使单个网络能够适应一百多个独特的场景。我们进一步证明,HyperFields 学习文本和 NeRF 之间更通用的映射,因此能够预测新的分布内和分布外场景——无论是零样本还是通过一些微调步骤。微调超场受益于学习通用映射的加速收敛,并且能够比现有基于神经优化的方法快 5 到 10 倍地合成新场景。我们的消融实验表明,动态架构和 NeRF 蒸馏对于超场的表现力至关重要。