ViLT Vision-and-Language Transformer Without Convolution or Region Supervision

视频讲解:ViLT 论文精读
论文下载:https://arxiv.org/pdf/2102.03334.pdf
代码地址:https://github.com/dandelin/vilt
论文投稿:PMLR2021 Proceedings of Machine Learning Research 机器学习顶会

领域

Vision-and-Language 多模态

背景

现在的VLP模型过度依赖于图像特征提取,包括使用Convolution or Region的结构,这一过程时间冗杂,导致了

(1)计算速度和效率较低,简单地提取输入特征需要比多模态交互用到多得多的计算量

(2)表达能力的上限取决于视觉嵌入器和预定义的视觉词汇量(predefined visual vocabulary)

方法

  • 结合BERT和VIT

    • 使用简单的patch线性投影(linear projection of a patch)代替之前的图像特征提取的工作。结合文本和图像为一个序列输入到Transformer中。
    • transfomer encoder作为Modality Interaction
  • 使用了2个trick

    • Whole Word Masking:巧妙的加强文字和图像的联系
    • Image Augmentation:使用RandAugment的数据增强方法,但是这里剔除了color inversion和cutout。因为这两个部分可能会导致数据集中的图片和文字不对应。

结果

大大提升效率:在图像的处理上,从之前的885ms(region),45ms(convolution)提升到0.4ms

下游任务效果持平,算是有竞争力,但是没有太大提升

贡献

  • ViLT is the simplest architecture by far for a vision-and-language model as it commissions the transformer module to extract and process visual features in place of a separate deep visual embedder. This design inherently leads to significant runtime and parameter efficiency.

  • For the first time, we achieve competent performance on vision-and-language tasks without using region features or deep convolutional visual embedders in general.

  • Also, for the first time, we empirically show that whole word masking and image augmentations that were unprecedented in VLP training schemes further drive downstream performance

缺点

  • 模型是在64张32G的V100s上训练了3天,这个资源配置太贵了,99%的人无法承受。

后期在NeurlPS2021(机器学习顶会)出现更轻量的ALBEF(单机八卡训练3天)

  • 时间上提升了很多,但是效果一般般

展望

  • Scalability:扩大数据集或者增大模型的规模

  • Masked Modeling for Visual Inputs:图像上进行mask的操作(完形填空)

    后期出现MAE,BEIT后,微软研究院在2022年6月提出的VL-BEiT,在此基础上加上了视觉的无监督重建损失.

    Bao H, Wang W, Dong L, et al. VL-BEiT: Generative Vision-Language Pretraining[J]. arXiv preprint arXiv:2206.01127, 2022.

  • Augmentation Strategies: 数据增强,从消融实验可以看出数据增强作用很大,并且有可能提升data efficiency。

相关论文

  • Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
  • BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  • Masked Unsupervised Self-training for Zero-shot Image Classification

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!