3DCNN论文阅读

大家好，又见面了，我是你们的朋友全栈君。

3DCNN应用范围：视频分类和动作识别、医疗图像诊断、高光谱图像(HSI)分类等

1. 视频分类和动作识别

1.1《Learning Spatiotemporal Features with 3D Convolutional Networks》

2015年CVPR

这篇论文应该是3DCNN的鼻祖，对于视频数据来说，作者认为3D ConvNet非常适合于时空特征学习，这里也就是视频分析任务上。 摘要： 我们提出了一种简单而有效的时空特征学习方法，该方法使用在大规模有监督视频数据集上训练的深层三维卷积网络(3D ConvNets)。我们的发现有三个方面：1)与2D ConvNet相比，3D ConvNet更适合时空特征学习；2)具有小的3×3×3卷积核的同质结构是3D ConvNet中性能最好的结构之一；3)我们学习的特征，即C3D(卷积3D)，在4个不同的基准上优于最先进的方法，并在其他2个基准上与当前最好的方法相媲美。此外，特征紧凑：在只有10维的UCF101数据集上达到了52.8%的准确率，而且由于ConvNets的快速推理，计算效率也很高。最后，它们在概念上非常简单，易于培训和使用。

3D卷积与2D卷积的区别：

对于视频分析任务而言，3D卷积核与2D卷积核相比，其多了时间维度的卷积： 2DCNN的卷积核大小是[C,W,H]， 3DCNN的卷积核大小是[T,C,W,H]， C是卷积核通道数，W是卷积核的宽，H是卷积核的高，T是时间长度。

上图来源

C3D的网络结构：

C3D的不足之处： 输入图像分辨率较低，该网络结构较浅，参数数量过多。

1.2 《A novel micro-expression detection algorithm based on BERT and 3DCNN》

中科院三区：Image and Vision Computing 这篇是用在微表情检测上的。

1.3 《Hand Gesture Recognition for Sign Language Using 3DCNN》

中科院三区：IEEE Access

摘要： 最近，由于两个主要原因，自动手势识别变得越来越重要：聋人和听力受损人口的增长，以及基于视觉的应用程序和无处不在的设备上的非接触式控制的发展。由于手势识别是手语分析的核心，因此强大的手势识别系统应同时考虑空间和时间特征。不幸的是，为手势序列找到有区别的时空描述符并不是一项简单的任务。在这项研究中，我们提出了一种有效的深度卷积神经网络方法来进行手势识别。所提出的方法采用迁移学习来克服大型标记手势数据集的稀缺性。我们使用来自彩色视频的三个手势数据集对其进行了评估：这些数据集中使用了 40、23 和 10 个类别。对于签名者依赖模式，该方法在三个数据集上分别获得了 98.12%、100% 和 76.67% 的识别率。对于签名者无关模式，它在三个数据集上分别获得了 84.38%、34.9% 和 70% 的识别率。

单个基于 3DCNN 的结构：

输入是16张图片。

融合并行3DCNN结构：

输入是32张图片，分成了前16张，中间的16张，和最后的16张输入并行3DCNN结构中，最后全连接层融合，这里相邻的输入图像有50%的重叠。

2. 医疗图像诊断

2.1《3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation》

3D U-Net原理与U-Net差不多，就是2D卷积核变成了3D卷积核。U-Net主要就是用来做医疗图像分割的。

U-Net和3D U-Net如下图：

3. 高光谱图像分类

3.1 《Multiscale Feature Fusion Network Incorporating 3D Self-Attention for Hyperspectral Image Classification》

中科院二区：remote sensing

摘要： 近年来，基于深度学习的高光谱图像（HSI）分类方法取得了巨大成功，卷积神经网络（CNN）方法在HSI分类任务中取得了良好的分类性能。然而，卷积操作仅适用于局部邻域，并且在提取局部特征方面是有效的。长距离的交互特征难以捕捉，在一定程度上影响了分类的准确性。同时，来自 HSI的数据具有三维、冗余和噪声的特点。 为了解决这些问题，我们提出了一种集成了 3D 多头自注意力的 3D自注意力多尺度特征融合网络（3DSA-MFN）。 3DSA-MFN首先使用不同大小的卷积核提取多尺度特征，对特征图的不同粒度进行采样，有效融合特征图的空间和光谱特征。然后，我们提出了一种改进的 3D 多头自注意力机制，为自注意力分支提供局部特征细节，并充分利用输入矩阵的上下文。为了验证所提出方法的性能，我们将其与三个公共数据集上的六种当前方法进行了比较。实验结果表明，所提出的3DSA-MFN实现了有竞争力的分类并突出了HSI分类任务。

3DSA-MFN 网络框架。该方法通过降维和窗口裁剪对原始数据进行预处理，然后将处理后的数据发送到多尺度特征融合、3DCOV_attention等模块进行特征提取，最后在多个全连接层上输出分类结果。

3.2 《Multiple Spectral Resolution 3D Convolutional Neural Network for Hyperspectral Image Classification》

中科院二区：remote sensing

摘要： 近年来，得益于深度学习技术在计算机视觉领域的快速发展，高光谱图像（HSI）分类的研究也取得了长足的进步。但是，与普通的 RGB 图像相比，HSI 更像是 3D 立方体；因此，探索适合 HSI 非常特殊的数据结构的分类方法是必要和有益的。在本文中，我们提出了用于 HSI 分类任务的多光谱分辨率 3D 卷积神经网络 (MSR-3DCNN)。在MSR-3DCNN中，我们将多尺度特征融合和空洞卷积的思想从空间维度扩展到光谱维度，将3D卷积和残差连接结合起来；因此，它可以更好地适应高光谱数据的3D立方形式，并有效利用不同波段的光谱信息。四个基准数据集的实验结果表明，与一些最先进的 (SOTA) HSI 分类方法相比，该方法的有效性及其优越性。

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/136461.html原文链接：https://javaforall.cn

图像处理机器学习神经网络深度学习人工智能

0 人点赞