多模态翻译:在翻译的过程中,使用源语言描述的图像辅助,将源语言翻译成目标语言。

数据集

  • Multi30K
  • Ambiguous COCO:基于VerSe数据集,标注其中的COCO和TUHOI子集,一个特点是Ambiguous COCO中的句子动词大多数都是模棱两可的。(本文提出的)

Baseline

​ 以使用Nematus工具包构建的纯文本神经机器翻译系统作为baseline,大多数设置和超参数保持默认。

评价指标

​ 使用Meteor、BLEU、TER(翻译错误率)作为指标,感觉目前常用于机器翻译的指标都可以用到多模态机器翻译。

模型

​ 综述列举了一些团队提出的多模态翻译模型,目前可能已经不是SOTA的效果了(以下都是system的名字)。

  • AFRL-OHIOSTATE:使用目标语言训练了一个图像描述模型,输出n个最有可能的句子(描述)。使用学习到的源语言描述到相应编码的目标语言描述的映射函数,接着计算相似度选取最接近的描述作为翻译结果。
  • CUNI:基于标准的编码器解码器架构,另外给图像输入增加一个编码器,在解码的过程中使用分层注意力组合,还通过在平行语料库中选择相似的句子进行反翻译的方式增加训练数据量。
  • DCU-ADAPT:使用VGG19获得图像的全局特征,并被融入解码器或者编码器。
  • LIUMCVC:提出了两种多模态注意力的方式,第一种对源文本与卷积图像特征分别进行单独的注意力计算;第二种使用来自ResNet-50的全局特征与单词嵌入作乘法。
  • NICT:首先构建了一个带有标准特征的系统HPB(a hierarchical phrase-based ),然后训练一个带有注意力的编码器-解码器网络,并将其作为HPB附加功能,对HPB系统的n个最佳输出进行重新排序。接着训练了一个NMT模型来集成视觉信息,利用图像检索方法获取与源句子描述的图像相似的目标语言描述,并将这些目标描述信息集成到NMT模型中。一个多模态的NMT模型也被用来重新排序HPB输出。所有特征权重(包括标准特征、NMT特征和多模态NMT特征)均由MERT调整。
  • OREGONSTATE:将图像信息融入给编码器和解码器。在编码器端,使用图像信息来生成源词表示,加强图像和源词表征之间的联系。此外,解码器通过全局注意机制对源词进行对齐。这样解码器可以同时利用图像信息和源语言信息,生成更准确的句子。
  • UvA-TiCC:是一种“想象力的模型”,它也可以生成目标句子和预测对应的图像特征。
  • SHEF:利用预训练的ResNet-152提取的图像特征,基于标准的编码器-解码器的架构,使用softdot attention机制融合。

(上面这些看原文吧…介绍的看不太懂)

结论

​ 仍然存在如下问题:

  1. 如何将视觉和语言模态进行融合。
  2. 训练数据集很重要,但是目前还很少,如何利用有限的数据进行高效学习。
  3. 评价的指标不够完善,无法判断是由于翻译本身交差还是视觉信息本身的问题,建议人工评估。