CoorDi's Blog

更新于2023-03-10|Deep Learning|Captioning

多模态翻译：在翻译的过程中，使用源语言描述的图像辅助，将源语言翻译成目标语言。数据集 Multi30K Ambiguous COCO：基于VerSe数据集，标注其中的COCO和TUHOI子集，一个特点是Ambiguous COCO中的句子动词大多数都是模棱两可的。（本文提出的） Baseline 以使用Nematus工具包构建的纯文本神经机器翻译系统作为baseline，大多数设置和超参数保持默认。评价指标使用Meteor、BLEU、TER（翻译错误率）作为指标，感觉目前常用于机器翻译的指标都可以用到多模态机器翻译。模型综述列举了一些团队提出的多模态翻译模型，目前可能已经不是SOTA的效果了（以下都是system的名字）。 AFRL-OHIOSTATE：使用目标语言训练了一个图像描述模型，输出n个最有可能的句子（描述）。使用学习到的源语言描述到相应编码的目标语言描述的映射函数，接着计算相似度选取最接近的描述作为翻译结果。 CUNI：基于标准的编码器解码器架构，另外给图像输入增加一个编码器，在解码的过程中使用分层注意力组合，还通过在平行语料库中选择相似的句子进 ...