最近,视频生成技术快速发展。鉴于社交媒体平台上视频内容的普及,这些模型加剧了人们对虚假信息传播的担忧。 因此,对于能够区分虚假AI生成视频并减轻虚假信息可能造成的潜在伤害的检测器的需求日益增长。然而,最先进的视频生成器缺乏大规模的数据集,这成为了这类检测器发展的障碍。 为了填补这一空白,作者推出了首个AI生成视频检测数据集GenVideo,它具有以下特点: (1)大量视频,包括收集的超过一百万个AI生成视频和真实视频; (2)生成内容和方法的丰富多样性,涵盖了广泛的视频类别和生成技术。 作者对数据集进行了广泛的研究,并针对真实世界场景提出了两种评估方法来评估检测器的性能:跨生成器的视频分类任务评估训练后的检测器在生成器上的泛化能力; 降质视频分类任务评估检测器处理在传播过程中质量下降的视频的鲁棒性。 此外,作者还引入了一个即插即用的模块,名为Detail Mamba(DeMamba),旨在通过分析时间和空间维度的不一致性来增强检测器,以识别AI生成的视频。 作者的大量实验证明了DeMamba在GenVideo上相对于现有检测器的卓越泛化能力和鲁棒性。 作者相信,GenVideo数据集和DeMamba模块将显著推动AI生成视频检测领域的发展。 作者的代码和数据集可在https://github.com/chenhaoxing/DeMamba获取。
1 Introduction
生成模型的进展令人印象深刻,使得创建高度逼真的图像变得更加轻松且无需专业知识。随着这些模型能够生成足够逼真的图像,越来越多的研究者探索如何改进视频创作。目前,某些生成算法,如Sora(Brooks等人,2024)和Gen2(Research,2023),能够通过简单的输入,包括文本和图像,制作高质量的视频。尽管这些生成算法可以减少人力劳动并增强创造力,但它们也引入了风险(Barrett等人,2023)。
例如,它们可能被用于在政治或经济等关键领域误导公众。一个著名的例子是一段泰勒·斯威夫特的人工智能生成视频在Twitter上广泛传播,损害了她的声誉。这种情况凸显了迫切需要能够检测这些假视频并避免潜在伤害的技术。
为了帮助开发强大且具有高度泛化能力的检测器,作者创建了第一个百万级人工智能生成视频数据集,命名为GenVideo。GenVideo利用最先进的模型生成大量视频,为人工智能生成视频的检测器提供全面培训和验证。
与专注于人类脸部视频的深度伪造视频数据集[20, 21, 22]不同,GenVideo涵盖了广泛的场景内容和运动变化,紧密模拟了各种实际设置中视频生成模型所提出的真实世界认证挑战。
GenVideo包括1,078,838个生成视频和1,223,511个真实视频。假视频包括内部生成的和从互联网收集的,而真实视频来自Youku-mPLUG[23],Kinetics-400[21],和MSR-VTT[23]数据集。
由于数据的规模,作者可以防止检测器仅仅学习真实视频和假视频之间的内容差异,而是专注于决定视频真实性的微妙迹象。
作者提出了两个与真实世界检测挑战相一致的任务:
(1)跨生成器视频分类,训练有素的检测器需要识别来自未见过的生成器的视频;
(2)降级视频分类,检测器评估被降级的视频,例如那些分辨率低、有压缩伪影或高斯模糊的视频。GenVideo可以显著推进面向社会中识别人工智能生成视频的检测器的发展。
在本文中,作者在GenVideo上评估了最先进的检测模型。然而,由于现有图像检测方法的局限性,这些模型无法模拟时间上的不一致性,以及视频检测方法在有效模拟局部空间不一致性方面的困难,这些模型的泛化能力受到了影响。"Detail"节目2中,科比·布莱恩特对篮球细节进行了洞察,包括杰森·塔图姆在接球时脚趾的位置,这些建议显著提高了塔图姆突破防守的能力。
如图1所示,生成视频通常同时表现出空间和时间上的伪影,仅建模一个方面(空间或时间)可能不足以涵盖所有类型的伪影。
建立一个具有满意泛化性能的检测器需要建模空间-时间局部细节。在本文中,作者引入了一个即插即用的模块,名为Detail Mamba(DeMamba),它利用结构化的状态空间模型捕捉不同区域的空间-时间不一致性,从而判断视频的真实性。在GenVideo上的大量实验表明,DeMamba可以作为现有特征提取器的即插即用附加组件,显著提高模型的泛化能力和鲁棒性。作者的贡献总结如下:
- 作者引入了第一个百万级人工智能生成视频检测数据集,GenVideo,其中包括来自各种场景、内容和模型的假视频。
- 作者设计了两个任务来评估检测器的性能:跨生成器视频分类和降级视频分类。
- 作者提出了一种即插即用的检测器DeMamba,能够建模空间-时间不一致性。广泛的实验结果验证了作者的DeMamba在识别人工智能生成视频中的泛化能力和鲁棒性。
2 Related works
Video generation methods
视频生成方法,如Henschel等人[2024],Zhou等人[2024]已成为从文本或图像提示产生高质量视频内容的强大工具。目前,视频生成主要包括两个主要任务:文本到视频(T2V)和图像到视频(I2V)。T2V涉及将文本提示输入模型,根据文本指令生成视频,而I2V则旨在基于输入图像生成视频,描述视频内容或特定帧。
根据这些视频生成方法的类型,它们可以分为三类:基于Unet的扩散方法、基于Transformer的扩散方法和其他方法。
扩散-Unet。在视频合成领域,Ma等人(2024年);Zhang等人(2024年);Bar-Tal等人(2024年);Wei等人(2023年);Ho等人(2022年);Girdhar等人(2023年);Feng等人(2023年);Xu等人(2023年);Hu等人(2023年);Ni等人(2023年);Girdhar等人(2023年)基于扩散-Unet的方法近期取得了显著进展。Text2Video-ZeroKhachatryan等人(2023年)引入了一种成本效益高的方法,通过丰富具有运动动态的潜在代码来保持时间一致性。Animatediff Guo等人(2023年)引入了一个即插即用的运动模块,用于动画化个性化的文本到图像模型,无需特定模型的调整,而Pia Zhang等人(2023年)设计了一个个性化的图像动画师,用于与条件图像对齐的运动可控性。同样,Lavie Wang等人(2023年)利用时间自注意力和旋转位置编码,强调联合图像-视频微调以产生高质量的视频输出。I2VGen-XL Wang等人(2023年)初步尝试了利用图像视觉指导的视频生成。VideoCrafter Chen等人(2023年,2024年)和DynamiCrafter Xing等人(2023年)通过合成图像提高视频质量,并利用文本到视频模型中的运动先验来动画化开放域图像。ModelScopeT2V Wang等人(2023年)结合了空间-时间块以确保一致的帧生成和平滑的运动过渡。SVD Blattmann等人(2023年)评估了成功视频潜在扩散模型所需的关键多阶段训练。VideoComposer Wang等人(2023年)创造性地将图像嵌入与样式嵌入结合起来,以增强生成视频的视觉连续性。SEINE Chen等人(2023年)提出了一个随机 Mask 视频扩散模型,以推动文本驱动视频合成的边界。
**扩散 Transformer **。在视频生成这一不断发展的领域,基于扩散 Transformer 的方法(Brooks等人,2024年;Ope,2024年)因其处理序列数据的灵活性和效率而受到了相当大的关注。Latte(Ma等人,2024年)通过从输入视频中提取时空 Token ,并使用一系列Transformer块在潜在空间中建模视频分布,增强了 Transformer 方法。Cogwiddeo(Hong等人,2022年)利用基于 Transformer 的模型,通过多帧率分层训练策略进行优化,提高了学习效率和视频质量。Sora(Ope,2024年;Brooks等人,2024年)采用基于DiT的生成架构(Li等人,2022年)进行视频生成,展示了基于 Transformer 的模型在适应视频合成的特定需求方面的多功能性。
其他方法。除了基于扩散的模型,生成对抗网络(GAN)(Shen等人,2023年;Wang等人,2023年)和自回归模型(GoogleAI,Kondratyuk等人,2023年)也被应用于视频生成。在这一领域值得关注的贡献包括(Yoo等人,2023年)和(Lei等人,2023年),他们探索了 Transformer 在视频生成中应用的基础知识。FlashVideo(Lei等人,2023年)专注于加速用于视频生成的 Transformer 模型。VideoPoet(Kondratyuk等人,2023年)利用仅解码器 Transformer 架构处理多模态输入并生成创意视频。Magvit(Yu等人,2023年)采用 Mask 生成视频 Transformer ,使用3D分词器将视频量化为时空视觉 Token 。一些工作(Shen等人,2023年;Ghosh等人,2024年;Wang等人,2023年)将时间层引入GAN以进行视频生成。
AI生成内容检测
人工智能生成的视觉内容可能会引发关于虚假信息传播的担忧。因此,在设计和建立伪造检测模型及此领域的基准方面已经付出了相当多的努力。近年来,大量研究专注于利用人工智能生成的图像数据集检测生成的图像,特别是那些来自未见过的生成模型。迄今为止,研究已经解决了深度伪造视频的检测问题,但是缺乏专门针对超出人脸范围生成的视频检测的研究。
作者希望这篇论文能为这一研究领域做出开创性和深刻的贡献。
3 GenVideo
Overviews of GenVideo
针对评估数据集和检测器泛化能力(即训练检测器准确识别开域中未见视频的能力)以及检测器鲁棒性(即在面对各种伪造视频干扰时保持高性能的能力)的迫切需求,作者开发了GenVideo数据集。该数据集主要有两个特点:
- 大规模:GenVideo数据集以层次化方式组织,涵盖不同生成器,如基于扩散的生成器和基于变换的生成器,以及同一类型生成器内的不同架构,如结合了不同运动模块与相同T2I基础模型的不同架构(Guo等人[2023],Zhang等人[2023])。这种结构有助于覆盖更广泛的生成内容,并在更大规模上制作伪造视频。GenVideo中的训练(分别测试)集包含总计(分别)个视频片段,包括(分别)个真实视频和(分别)个伪造视频。
- 多样化内容:GenVideo包括源自开源网站的多种高质量伪造视频,以及通过用户训练和官方提供的预训练视频生成模型产生的视频,包括T2V和I2V模型。这种多样化的内容确保了在广泛的场景、行人、建筑、物体等方面,视频的时长主要在2到6秒之间,分辨率各不相同。
这一多样化的集合用以全面评估检测器的泛化能力和鲁棒性,通过以下两项任务来验证检测模型的性能:跨生成器的泛化能力和针对退化视频的分类能力。
Organization of GenVideo
GenVideo数据集主要由真实视频和伪造视频组成,如表1所示。真实视频主要来源于与视频动作数据集[13]和视频描述数据集[13, 14]相关的现有数据集。伪造视频是通过外部网络抓取、基于开源项目的内部生成 Pipeline 以及一些现有的视频评估数据集[15]获得的。
考虑到视频生成模型的兴起,这些模型主要关注基于扩散的方法[12, 17, 16, 23, 22, 24, 25, 26]以及基于自回归模型的方法Ma等人[20],Ope[20],GenVideo数据集的训练集主要包含表1中展示的这两种流行算法生成的视频。此外,遵循[15],作者使用Pika网站提供的 pik[22]服务生成了个视频。为了平衡真实视频和虚假视频的数量比例,作者从现有的视频数据集Kinetics-[13]和Youku-mPLUG[13]中分别采样了,和,个视频片段,以形成训练集的白样本。
对于测试集,真实视频来源于MSR-VTT数据集[13],这是一个大型视频描述数据集。伪造视频主要来源于两部分:第一部分来自Evalcrater基准[15],用于评估不同生成模型的时序平滑性、质量等指标。第二部分数据来自外部网络抓取,涵盖现有流行视频生成方法[17, 16, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]生成的视频。
3b,陈等人,2023c],基于Transformer的方法[马等人,2024b,Ope,2024]以及基于服务的方法Pika网站[pik,2022]。作者选择了诸如人类、动物和植物等常见类别作为前景关键词,以及如“在公园中”或“在草坪上”的典型场景作为背景关键词。利用大型语言模型[Le Scao等人,2023],将这些前景和背景关键词扩展成全面的文本提示,以指导文本到视频的生成。对于图像到视频的生成,作者采用了各种文本到图像的模型,包括不同版本的Stable Diffusion(SD [Rombach等人,2022],SDXL [Podell等人,2023])。使用大型语言模型生成的丰富文本提示,作者创建了相应的图像,随后用作图像到视频模型的输入,以生成最终视频。
为了组建一个具有代表性的测试集,作者研究了当前基于不同模型架构的视频生成器[Blattmann等人,2023a,Brooks等人,2024,Ghosh等人,2024],并从它们的项目中抓取示例视频,如表1中WildScape所示。这包括如VideoPoet [Kondratyuk等人,2023],Emu [Girdhar等人,2023]和Sora [Brooks等人,2024]等突出的视频生成模型。此外,作者还收集了各种条件引导模型[Wei等人,2023,Feng等人,2023,Xu等人,2023c]生成的视频,这些模型专注于社会背景和角色。作者还包括了一些非主流的生成算法,例如基于潜在流扩散模型的[Ni等人,2023], Mask 生成视频Transformer[Yu等人,2023],或自回归模型[Gupta等人,2023]。这种方法确保了覆盖流行的算法和生成高质量内容的算法,尤其是围绕以角色为中心的视频。作者整合了现有的视频质量评估数据集Liu等人[2023a],这些数据集包括典型的生成方法,并展示了相对较高的生成质量。
真实视频收集: 考虑到生成器中的假视频仅限于由训练数据集(如Kinetics-400 [Kay等人,2017b]和Youku-mPLUG [Xu等人,2023d])确定的特定领域,作者从这些数据集中抽取部分视频作为GenVideo数据集的真实部分。具体来说,作者从Youku-mPLUG [Xu等人,2023d]中随机抽取了个视频,并从每个视频中随机截取10秒的片段以形成真实样本。
4 DeMamba
Preliminaries
结构化状态空间序列模型(S4)[Gu等人,2022b,2021b,Smith等人,2023]基于连续系统,便于将一维函数或序列,记作映射到,通过中间隐藏状态。在正式的背景下,S4利用以下常微分方程来表示输入数据:
其中表示系统的演化矩阵,和作为投影矩阵。为了在当代S4中从连续建模转向离散建模,Mamba框架利用时间尺度参数,通过零阶保持方法将和转换为它们的离散等价物和 [Gu等人,2022b],表示为:
与传统主要依赖线性时不变S4的模型不同,Mamba [Gu和Dao,2023] 通过为S4实现带有扫描的选择机制(S6)来区分自己。在S6框架内,参数,,以及都从输入中固有导出,形成了一种内在的结构,用于情境感知和权重自适应调制。
AI-generated video detection with DeMamba module
概述。 如图2所示,作者提出的方法包括一个特征编码器、一个DeMamba模块和一个MLP分类头。
具体来说,作者采用最先进的视觉编码器(例如,CLIP [Radford et al., 2021] 和 XCLIP [Ni et al., 2022])将输入视频帧编码为一系列特征,表示为,其中表示通道维度,、分别代表特征图的空间尺寸,即高度和宽度。接下来,提取的特征在空间上进行分组,并应用DeMamba模块来建模组内特征的一致性。最后,作者从不同的组中聚合特征,以确定输入视频是否由AI生成。
DeMamba模块。 作者首先应用空间整合:给定特征,沿着高度和宽度维度将其划分为个区域,其中每个区域表示为,。 在图2中,作者将1D Mamba层适应于处理空间-时间输入,通过将其能力扩展到3D扫描。在先前的Mamba方法[Gu和Dao, 2023, Zhu et al., 2024, Liu et al., 2024]中,使用了扫描-扫描机制,这可能无法有效地捕捉相邻标记之间的内在上下文关系。 为了解决这个限制,作者提出了一种针对每个分割区域的连续扫描策略,旨在在整个扫描阶段保持空间连续性。 假设一个区域包含四个空间位置:(1,1),(1,2),(2,1)和(2,2),分别对应于左上角、右上角、左下角和右下角。 扫描顺序是(1,1) -> (1,2) -> (2,1) -> (2,2),而在连续扫描中,顺序是(1,1) -> (1,2) -> (2,2) -> (2,1)。 这种方法根据它们之间的接近程度组织空间标记,并随后在连续的帧中顺序对齐它们。 它促进了空间和时间动态的连贯整合,增强了模型捕捉复杂空间-时间关系的能力。 在对每个分割区域使用DeMamba建模空间-时间不一致性之后,作者可以得到特征,其中。
分类头。 为了利用更全面的特征进行分类,作者聚合了全局和局部特征。 具体来说,作者在DeMamba模块之前对输入特征进行时间和空间平均,得到全局特征,并在DeMamba处理后对时间空间特征进行平均池化到池化特征。 然后作者将局部特征与全局特征连接起来,并应用一个简单的MLP进行分类:
最后,作者使用二进制交叉熵损失来训练作者的模型,以分类真实/伪造视频。
5 Experiments
Implementation details
数据集。 为了全面分析各种检测器的性能,作者将数据集分为两个不同的部分:基础训练集 和域外测试集 。 和 包含由不同生成方法创建的假视频和不同的真实视频。 包括1,213,511个真实视频和1,048,575个由10种 Baseline 生成方法产生的视频。 包含10,000个真实视频和8,588个由10种生成方法创建的视频。关于数据的详细信息,请参考 第3节和第3.3节。
评估指标。 与先前研究采用的方法一致,作者的评估框架主要报告准确率(ACC)和平均精度(AP)以评估检测器的有效性。准确率的计算基于0.5的阈值。对于基于图像的检测技术,作者将帧 Level 的预测合并为相应的视频 Level 预测,确保跨不同媒体格式的连贯性分析。值得注意的是,在评估特定合成方法生成的数据集上的性能时,作者基于该数据集本身计算该合成方法的ACC。此外,在计算AP的过程中,作者考虑真实视频以实现更全面的评估。
** Baseline 模型。** 1) CLIP (ICML'21) (Radford等人,2021年)是一种创新模型,它将图像与文本描述相连接,使其在多种视觉和语言任务上表现出色。2) F3Net (ECCV'20) (Qian等人,2020年)通过结合频率感知组件和局部统计来解决复杂人脸操作的检测问题。其双流方法有效地识别伪造模式。3) VideoMAE (NeurIPS'22) (Tong等人,2022年)将 Mask 自动编码器(He等人,2022年)的概念应用于视频,通过自监督训练增强特征提取,提高下游任务的性能。4) XCLIP (ECCV'22) (Ni等人,2022年)为视频识别调整现有的图像-语言模型,通过增加新的跨帧注意力机制改进时间信息的交换,并专门为视频定制提示。
在本文中,作者提出了一种新的学习方法,通过引入空间不一致性模块、时间不一致性模块和信息补充模块来捕捉伪造视频中空间和时间的矛盾。6) NPR(CVPR'24)(谭等人,2024)是为了理解和描述由上采样过程产生的图像像素之间复杂的局部相互依赖关系而引入的一个概念,这种关系在由生成模型(如GANs和扩散模型)创建的合成图像中尤为明显,这些模型被用于识别和分析这些操作产生的结构伪影。
训练设置。 如表2所示,作者展示了针对多对多和一对多泛化任务的不同模型训练参数设置。作者所有的实验都是在配备有8块特斯拉A-100 80G GPU和一个英特尔(R) 至强(R) 白金8369B CPU @ 2.90GHz的系统中进行的。
Task1: cross generator generalization
由于生成方法的快速迭代,作者提出了一个跨数据集泛化任务来测试检测器的泛化性能。
具体来说,它包括两种类型的泛化任务:
- 多对多泛化任务,2) 一对多泛化任务。
多对多泛化任务。 这个任务涉及在10个 Baseline 类别上进行训练,然后在 的每个子集上测试并计算平均检测性能。如表3所示,由于视频模型可以建模时间序列,因此与图像模型相比,视频模型能获得更好的识别准确度。
模型中,取得了显著的改进。例如,将DeMamba模块整合到XCLIP中,DeMamba-XCLIP-FT获得了94.42%的平均准确率和97.10%的平均AP,与原始XCLIP相比,准确率提高了10.22%,AP提高了12.02%。需要注意的是,PT(部分调整)表示仅冻结了主干,只调整其他部分,而FT(完全训练)则是调整整个模型。
一对多泛化任务。 在遵循AI生成图像检测设置(Tan等人,2024;Corvi等人,2023;Wang等人,2023g)之后,作者也执行了一对多泛化任务。与多对多泛化任务不同,一对多泛化任务涉及在一个 Baseline 类别上进行训练,然后在 的每个子集上测试并计算平均检测性能。如表4所示,由于DeMamba中学习了空间时间不一致性,作者的DeMamba-XCLIP-FT在三个一对多泛化任务中实现了更好的泛化性能。
Task2: degraded video classification
在实际检测场景中,检测器对扰动的鲁棒性也至关重要。在这方面,作者研究了检测器对8种不同类型扰动的影响:H.264压缩、JPEG压缩、翻转、裁剪、文本水印、图像水印、高斯噪声和色彩变换。关于扰动的更具体细节可以在附录B.2中找到。表5展示了在许多到多任务中训练的模型在这些扰动影响下的性能。作者可以看到,在数据降质的情况下,DeMamba-XCLIP-FT仍然取得了最佳性能,这表明作者的模型在面对降质数据时具有很好的鲁棒性。
Ablation study
消融测试。 作者进行了消融实验以验证DeMamba的有效性。如表6所示,DeMamba有效地提升了模型的泛化性能。此外,当使用融合特征时,模型取得了最佳性能。
不同区域大小的影响。 作者研究了在DeMamba中划分区域时区域大小对建模时间不一致性的影响。如表7所示,当区域大小为2时观察到最佳性能。较小的区域使模型能够更多地关注局部细节,从而带来更优越的建模性能。然而,过小的区域可能会导致空间上下文信息的丢失。因此,选择合适的区域大小至关重要。
扫描顺序的影响。 如表8所示,本文提出的连续扫描与传统扫描方法相比,有效地提升了性能。
6 Broader impacts
作者的研究专注于利用机器学习技术检测生成的视频。作者推出了首个百万 Level 的AI生成视频检测数据集,并开发了DeMamba模型。这些努力对于保护数字内容和防止误信息的传播至关重要。然而,这些工具存在被滥用的潜在可能,导致视频生成与检测技术之间的竞争。作者旨在倡导技术的道德使用,并推动对验证媒体真实性的创新研究工具。作者相信这将有助于保护公众免受误信息之害,提高信息传播的清晰度和真实性,并确保个人隐私的保护。
7 Conclusion and limitation
本文介绍了GenVideo数据集,这是一个专门用于检测由生成模型生成的虚假视频的数据集。GenVideo的特点是规模大,生成的内容和方法的多样性丰富。作者提出了两种模拟真实世界场景的任务,即跨生成器视频分类任务和降级视频分类任务,以评估现有检测器在GenVideo上的检测性能。此外,作者还引入了一种即插即用的有效检测模型,名为Detail Mamba(DeMamba),它通过分析空间-时间维度的不一致性来区分AI生成的视频。该模型在多个任务中展示了其强大的泛化能力和鲁棒性。作者希望这项研究能启发其他检测技术的创建和改进,为真实可靠的AI生成内容应用的发展提供新的途径。
本文的主要局限性在于所提出的DeMamba训练效率次优,这是Mamba模型的一个普遍问题。因此,作者鼓励社区设计更多轻量级和通用型的检测模型,以促进AI生成内容的监管。## 附录A 模型细节
作者提供了本文中使用方法的详细信息,如表9所示。作者的模型仅在XCLIP-B模型上增加少量参数,就能实现显著的性能提升。
Implementation details
数据预处理. 对于每个视频,作者均匀地采样帧以进行对齐。对于时长超过3秒的视频,作者每秒采样2帧。对于时长小于3秒的视频,作者的采样频率为 长度 秒。以下是以Pytorch风格编写的伪代码:
数据集增强. 在训练和测试期间,作者从帧采样后的视频中随机选择8或16个连续帧,并将每帧调整大小为 。为了增强模型的泛化能力,作者在训练期间引入了随机数据增强,包括水平翻转(HorizontalFlip)、图像压缩(ImageCompression)、高斯噪声(GaussNoise)、高斯模糊(GaussianBlur)和灰度(Grayscale)。