带掩码的自编码器MAE在各领域中的应用总结

2022-11-11 17:11:00 浏览数 (2)

点击上方“Deephub Imba”,关注公众号,好文章不错过 !

机器学习算法应该理解数据从中提取有用的特征才能够解决复杂的任务。通常训练泛化模型需要大量带注释的数据。这个是非常费时费力的,并且一般情况下都很难进行。

所以各种基于带掩码的自编码器技术就出现了,这种技术允许在未标记的数据上训练模型,并且获得的特征能够适应常见下游任务

  • BERT — 最早的遮蔽模型,用于文本任务 1810.04805
  • MAE — 图像,可以说它将BERT的辉煌延伸到了视觉 2111.06377
  • M3MAE — 图像 文字 2205.14204
  • MAE that listen — 音频 2207.06405
  • VideoMAE — 视频 2203.12602
  • TSFormer — 时间序列 2107.10977
  • GraphMAE — 图 2205.10803

从上面我们可以看到 Masked Autoencoder几乎覆盖了大部分的主要研究领域是一种强大而简单的技术,它使用基于transformer的模型进行预训练得到高水平的数据表示,这对在任何下游任务(迁移学习,微调)上采用该模型都很有帮助。

自监督学习是一种不需要任何标签就能获得数据信息表示的方法。标准的自监督学习技术通常使用高级数据增强策略。但是对于文本、音频、大脑信号等形式来说,如何选择增强策略并且保证策略的合理性是一个非常棘手的问题

而Masked Autoencoder不使用这种策略。我们只需要有数据,并且是大量的数据还有必要的计算资源即可。它使用重建的方式根据被部分遮蔽的样本来预测完整的数据。如果遮蔽了大约70%的数据,模型还能够恢复数据的话,则说明模型学习到了数据的良好的高级表示

MAE是如何工作的?

MAE 的工作原理非常简单。看看下面的图片:

训练前需要屏蔽一半以上的Patch(比如75%)。编码器接收可见的Patch块。在编码器之后,引入掩码标记,用一个小(相对于编码器小)解码器对全部编码的Patch和掩码标记进行解码,重建原始图像。下游的任务中,编码器的输出作为特征,下游任务不需要进行遮蔽。

一般流程如下:

  • 获取数据样本(图像)。
  • 对样本进行区域划分(patches for image, word for text等)
  • 应用高比率的随机遮蔽(论文中使用75%)
  • 只保留可见的部分,并将它们输入编码器。
  • 使用上面的掩码进行填充,将编码器的输出和遮蔽进行合并并且保留原始顺序,作为解码器的输入。
  • 解码器来负责重建遮蔽。

就是这么一个简单的流程就能够从数据中提取有意义的特征

0 人点赞