Multimodal Translator
多模态翻译:在翻译的过程中,使用源语言描述的图像辅助,将源语言翻译成目标语言。
数据集
Multi30K
Ambiguous COCO:基于VerSe数据集,标注其中的COCO和TUHOI子集,一个特点是Ambiguous COCO中的句子动词大多数都是模棱两可的。(本文提出的)
Baseline
以使用Nematus工具包构建的纯文本神经机器翻译系统作为baseline,大多数设置和超参数保持默认。
评价指标
使用Meteor、BLEU、TER(翻译错误率)作为指标,感觉目前常用于机器翻译的指标都可以用到多模态机器翻译。
模型
综述列举了一些团队提出的多模态翻译模型,目前可能已经不是SOTA的效果了(以下都是system的名字)。
AFRL-OHIOSTATE:使用目标语言训练了一个图像描述模型,输出n个最有可能的句子(描述)。使用学习到的源语言描述到相应编码的目标语言描述的映射函数,接着计算相似度选取最接近的描述作为翻译结果。
CUNI:基于标准的编码器解码器架构,另外给图像输入增加一个编码器,在解码的过程中使用分层注意力组合,还通过在平行语料库中选择相似的句子进 ...