CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する中でうまくいかなかったことと、その対策をまとめる自分用メモが中心。

2018-09-07から1日間の記事一覧

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み]

VQAタスクにおいて,文と画像のベクトルを統合する為の手法. VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題. https://pdfs.semanticscholar.org/presentation/4f0e/2685905ca4db75f08b6d…