CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する上でうまくいかなかったことと,その対策をまとめる自分用のメモが中心.

論文読み

スペックルを用いて隠れた位置にある物体を追跡[CVPR][論文読み]

Tracking Multiple Objects Outside the Line of Sight using Speckle Imaging (CVPR2018) ieeexplore.ieee.org 目的 障害物によって隠れた位置(Non-Line-Of-Sight)にある物体の動きを追跡すること. 技術的なキモ 物体とスペックルの動きの関係をシンプルに…

Automatically Extracting Action Graphs from Materials Science Synthesis Procedures

無機物材料の生成プロセスをフローグラフ化する手法. 先行研究の料理のレシピをフローグラフ化する手法(Mise en Place: Unsupervised Interpretation of Instructional Recipes https://homes.cs.washington.edu/~yejin/Papers/emnlp15_cooking.pdf )を適用…

RecipeScape: Mining and Analyzing Diverse Processes in Cooking Recipes

Published 2017 in CHI Extended Abstracts 文で書かれた料理のレシピを構造化データにする為の研究. 事前に定義しておいたRecipeDeckから,料理の動作を選択することによって文章で書かれたプロセスを構造化. www.semanticscholar.org

Building Detection from Satellite Imagery using Ensemble of Size-specific Detectors

CVPR2018の衛星画像コンテストで優勝した手法。コンテストのタスクは建物検知。 キモは建物の大きさ(small, medium, large)で分類したこと。 手順は非常にシンプルで、まず二値画像の正解ラベルをk-meansでsmall, medium, largeに分類。その後、CNNでそれぞ…

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[ACL2018][論文読み]

VQAタスクにおいて,文と画像のベクトルを統合する為の手法. VQAのようなマルチモーダルなタスクだと,文と画像のベクトルを統合した際のデータ量が肥大化してしまうことが問題. https://pdfs.semanticscholar.org/presentation/4f0e/2685905ca4db75f08b6d…