ほぼ週刊ハマりどころメモ

画像認識と自然言語処理を研究する中でハマったところを共有します.ほぼ自分用のメモ.

ACL2018

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み]

VQAタスクにおいて,文と画像のベクトルを統合する為の手法. VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題. https://pdfs.semanticscholar.org/presentation/4f0e/2685905ca4db75f08b6d…