CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する上でうまくいかなかったことと,その対策をまとめる自分用のメモが中心.

コマンドラインでPDFから図を抽出

Popplerの付属コマンド、pdfimagesを使う。

# Popplerが入って無ければ入れる
# https://github.com/systemslab/popper/tree/master/cli
pip install popper

pdfimages -p -png hoge.pdf paper_fig

を実行するとpaper_figに抽出された図が溜まる。

例えば、こんなペーパー(https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf)を入力すると、

f:id:Vastee:20190301172115p:plain

こんな画像が抽出される。

f:id:Vastee:20190301172205p:plain