MULTIBENCH,一个系统而统一的大规模多模态学习基准,涵盖15个数据集、10种模式、20个预测任务和6个研究领域。
引言
背景:
- 语言和视觉领域发展不错,但是其他领域欠缺
- 现在的基准评价关注性能,没有量化缺点包括时间空间复杂度,由于不完美模态导致的鲁棒性降低,需要在性能、鲁棒性、复杂度取得平衡
提出multibench就是解决以上问题:
- 扩充收集各领域数据集、数据模态
- 量化复杂度
- 提出标准流程评价对噪声和缺失模态情况下的鲁棒性
MultiBench是一个端到端的过程,包括数据预处理、数据集拆分、多模态算法、评估指标和交叉验证。
- 开发工具包MultiZoo
- 可以用于workshop、教学等
多尺度多模态基准
第一版集中在多模态融合,对于多模态翻译等问题未来版本可能涉及
数据集
介绍了6大领域15个数据集,表1
- 情感计算(affective computing)
- 医疗:时变和静态变量的整合使用
- 机器人
- 金融
- 人机交互
- 多媒体
评价标准
性能:
- regression: MSE, MAE,
- classification: F1-score, AUPRC
复杂度:
- data size in bits
- number of model parameters
- time and memory resources on CPU and GPU
鲁棒性:
- 单模态独有噪音:对图像、音频等单独处理
- 考虑多模态整体的不完善:比如缺失模态等
MultiZoo:多模态算法集合
涵盖实现multibench整个过程中的算法
数据预处理
- WordAlign算法
- 将各模态信息调整到统一粒度
融合范式
- 早期和晚期融合
- EF,LF
- 多模态张量: 多模态互补
- Tensor Fusion
- Low-rank Tensor Fusion
- 多模态乘法交互: 多模态交互
- MI-MATRIX
- MI-VECTOR
- MI-SCALAR
- 多模态门控
- NL GATE: 自注意力机制
- 时序注意力模型
- MULT: 多模态Transformer
- 网络架构搜索
- MFAS
优化目标
除了标准的监督损失函数,纳入一些新提出的目标函数
- CCA
- REFNET
- MFM
- MCTN
训练过程
- Gradient Blending来计算融合的权重
- Regularization by Maximizing Functional Entropies
实验
- 泛化性能
- 目前的方法表现出高方差,没有放之四海而皆准的模型,特别是对于未被研究的模式和任务。
- 后期融合表现比较均衡
- 有些融合方法是专门为2模态设计,有些在2/3模态表现不好
- 单模态与多模态的权衡
- 性能与复杂度的权衡
- 性能与鲁棒性的权衡
结论
一个大规模的基准,统一了以前在多模态研究中互不相干的工作,重点是易用性、可及性和可重复性。
未来拓展
- 其他的多模态问题
- 新的评价指标
- 多模态迁移学习或者协同学习
- 多模态多任务学习
思考
MultiBench把以前多模态研究中使用的公开数据集,算法,评价指标等都统一在了一个框架下,期望标准化多模态学习过程,并且能将不同的算法模型在其他模态、任务中进行比较。大而全的框架确实能为各类多模态任务提供一个baseline,但是各专业领域内的多模态模型应该是存在一些差异的,就像我们很难期待一个医生能掌握律师干的事情,然而,人工智能的发展确实很快,比人还强大的通用人工智能应该也会实现。
- Liang, P. P. et al. MultiBench: Multiscale Benchmarks for Multimodal Representation Learning. (2021) doi:10.48550/arXiv.2107.07502. ↩︎