画像/言語同時埋め込みベクトル空間の構築に向けた埋め込み粒度の比較検討

Abstract

本研究では,画像-言語のマルチモーダルタスクにおいて,訓練済み単語ベクトル(GloVe)やCNN(VGG16,ResNet152)に相当するような,再利用可能な学習済みコンポーネントを構築すること目的とする.本稿では,その一例として,画像と言語の情報を共通のベクトル空間に埋め込むことを考える.共通ベクトル空間を構築するにあたって,画像と言語の情報をどのような粒度で用いれば良いのかは,自明ではない.そのため,複数の粒度について埋め込みを学習し,各共通ベクトル空間を「を定性的・定量的に分析することで,両者の持つ性質を明らかにする.実験から,適切な粒度で訓練データを増やすことで,共通ベクトル空間の性能を向上させられることがわかった.

Publication
言語処理学会第25回年次大会予稿集
Date