CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する中でうまくいかなかったことと、その対策をまとめる自分用メモが中心。

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み]

f:id:Vastee:20180907155748p:plain

VQAタスクにおいて,文と画像のベクトルを統合する為の手法.

VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題.

f:id:Vastee:20180907161221p:plain

https://pdfs.semanticscholar.org/presentation/4f0e/2685905ca4db75f08b6de8612b820cb4ea12.pdf?_ga=2.192352170.1804536074.1536303322-1385125109.1521159548 より

その問題をFFTを用いて圧縮を行い,コンパクトにすることで解決. かなりイケてる手法らしい.