【他山之石】图像篡改数据集汇总及下载

2023-09-25 15:13:11 浏览数 (1)

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。

作者:知乎—魂牵梦梦随魂

地址:https://www.zhihu.com/people/hun-qian-meng-meng-sui-hun

毕设是图像篡改检测方向,目前已经接近尾声。整理代码的时候也顺便整理了一下手头的数据集,在这里小结一下,送给有需要的朋友。

01

CasiaV1.0/2.0

包含了两种篡改:copy-move和splice,具体的数据集指标说明见此篇:《Casia image tampering detection evaluation database》

论文地址:

https://ieeexplore.ieee.org/document/6625374

V1.0 V2.0篡改图片应该是9k张左右,由于两个版本数据集样本数量差距还蛮大的,很多论文在模型评测时使用V2.0做迁移,V1.0做测试。但仅是迁移阶段用于评测而已,具体模型训练我认为还是需要更大样本数量的篡改训练集。

下载地址:

https://github.com/namtpham/casia1groundtruth

https://github.com/namtpham/casia2groundtruth

02

Columbia Uncompressed Image Splicing Detection

看名字也知道这数据集是splice篡改,数据集较小,有183张篡改图片,图片分辨率高。具体数据集指标见此网址:

https://www.ee.columbia.edu/ln/dvmm/downloads/authsplcuncmp/

下载地址:

https://www.dropbox.com/sh/786qv3yhvc7s9ki/AACbEEzGPrD3_y38bpWHzgdqa?dl=0

03

Pawel korus-Realistic Tampering Dataset

这是一个手工篡改数据集,做的还是非常走心的,和上面俩数据集相比,至少有的图片我肉眼真看不出来是p的......图片分辨率很高,都是1920 x 1080未压缩图片。缺点是数量太少了,只有220张,只能做模型测试了。包含object-insertion和removal两种篡改。

数据集具体指标和下载地址:https://pkorus.pl/downloads

04

Coverage

copy-move篡改数据集。100对篡改图片及原图。分辨率一般般。

数据集具体指标见此网址:

https://stefan.winklerbros.net/Publications/icip2016b.pdf

05

NIST16

这个数据集个人感觉做的也很走心,跟上面提到的Pawel korus-Realistic Tampering Dataset手工数据集质量差不多,有的图肉眼看也看不太出来篡改过。图片分辨率高,有splice、remove、copy-move三种篡改,不到1k张样本。

数据集获取:

在OpenMFC20网站注册账号,网址如下:

https://mfc.nist.gov/users/sign_in

按照流程完善信息,可能要提交license(数据集分开源的和非开源,NIST16是开源的,不记得需要不要提交license了),就可以下载NIST16了。

06

自制篡改数据集

最先看到给出自制篡改数据集的制作方法是从rgb-net那篇论文(不知道是不是首创,反正我是先看到那篇的)【CVPR 2018】Learning Rich Features for Image Manipulation Detection,论文链接:

https://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_Learning_Rich_Features_CVPR_2018_paper.pdf

后面陆续看到的几篇论文也使用了相同的制作方法:基本思路就是基于MS COCO数据集标注 OpenCV实现篡改功能。

篡改数据集的具体实现建议去学习一下上面提到的Learning Rich Features论文的github源码,生成数据集的代码写的很清晰,对自制篡改数据集很有启发性:

https://github.com/pengzhou1108/RGB-N

我自己按照他的方法生成了50k张样本数据集,用于训练很够了。我自己按照他的方法生成了50k张样本数据集,用于训练很够了。

目前用到的数据集大概就这么多吧,有急需但是下载遇到问题的朋友可以私信我,但尽量先尝试自己下载吧。

0 人点赞