CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する上でうまくいかなかったことと,その対策をまとめる自分用のメモが中心.

機械学習キワモノデータセット集[ML][Dataset]

機械学習をやってると,MNISTやCIFARなどの真面目ーなデータセットでは無く,おもしろくて刺激的なデータセットで結果を見てみたいなと思いません?

本記事ではそんなあなたの為に筆者が見つけたキワモノデータを紹介.


ナイフが映った画像のデータセット キワモノ度:☆

f:id:Vastee:20181012170618p:plain

*1

監視カメラの動画からナイフが映った画像をキャプチャして作ったデータセット.ナイフというと刺激的な気がするが,防犯目的のようなので真面目?

ナイフが映っている画像は3,559件,ナイフが映っていない画像は9,340件ある.CNNの2値分類を試す際にすぐ使えそう.

Download link: http://kt.agh.edu.pl/~matiolanski/KnivesImagesDatabase/


様々な種類のグラフ画像のデータセット キワモノ度: ☆☆

f:id:Vastee:20181013114423p:plain

*2

棒グラフ,横棒グラフ,線のグラフプロット,ドットのグラフプロット,円グラフの画像が大量に収録されたデータセット

グラフ画像のデータセットを作った目的としては,グラフ画像から自動で数値を読み取る人工知能を作る為である.こんなもの作って何の役に立つの?と思われるかもしれないが,世間では高いニーズがある.なぜなら,PDF形式などでまとめられた非構造データである特許文書や科学技術論文にはグラフ画像が大量にある為,自動で数値を読み取る人工知能があると眠っていたデータが大量に獲得できるのである.文献から獲得できる大量のデータはまさに人類の英知そのもの.このように文献から獲得できるデータはとても貴重なのでデータサイエンティストによっては喉から手が出るほど欲しいデータだというわけである.

このデータセットを作成したのは,トロント発のAIスタートアップ"Maluuba"である.ちなみにMaluubaは2017年に米マイクロソフトに買収された.

Download link: https://datasets.maluuba.com/FigureQA


ドン勝プレイヤーを予測する為のデータセット キワモノ度:☆☆☆

f:id:Vastee:20181013120055p:plain

*3

大人気ゲームPUBGのデータセット.PUBGは100人のプレイヤーが最後の一人になるまで戦うバトルロワイヤル形式のゲームである.そして,本データセットでは,説明変数として,キル数・キルした場所・回復した回数・ 乗り物を破壊した回数など,ゲームに関するあらゆるパラメータが提供され,目的変数として,プレイヤーの最終順位が提供されている.また,データ形式csvである為,比較的扱いやすい.

データ解析のついでにドン勝の仕方もわかる(?)面白いデータセットだ.

Download link: https://www.kaggle.com/c/pubg-finish-placement-prediction/data


食物連鎖に関する画像と質問応答のデータセット キワモノ度:☆☆☆☆

f:id:Vastee:20181012172400p:plain

*4

子供向けの生物の教科書にある食物連鎖に関する図とその質問応答が収録されたデータセット.扱うテーマは面白いが,画像がダイアグラム形式で書かれているので,単純な画像認識ではそもそも情報抽出が行えない.つまり,とても扱いにくいデータセットである.

このデータセットを作成したのはマイクロソフトの共同創業者のPaul Allenが設立したAllen Instituteという非営利の独立型研究所だ.食物連鎖の図をターゲットにするという発想のぶっ飛び具合と,それを解析する卓越した技術力には頭が上がらない.

紹介するデータセットの内,マイクロソフト関連が2件もあるとは何たる偶然.

Download link: https://allenai.org/paper-appendix/emnlp2016-p3/


女子高校生の100m疾走後の感想文データセット キワモノ度:☆☆☆☆☆

栄えあるキワモノ度第1位のデータセットは,なんと日本発のものだ.

内容はタイトル通りで説明することは無い.言っておくが本データは趣味では無く教育目的で作成されたものである.

誠に残念なことにデータセットは非公開だ.しかし,論文はあるので暇な人は見てみると良い.

Paper link: ci.nii.ac.jp

タイトルだけでキワモノだということが分かると思う.

*1:画像は,論文"CCTV object detection with fuzzy classification and image enhancement"(https://link.springer.com/content/pdf/10.1007%2Fs11042-015-2697-z.pdf)より転載

*2:画像は,https://datasets.maluuba.com/FigureQAより引用

*3:画像は,https://www.kaggle.com/c/pubg-finish-placement-prediction/dataより転載

*4:画像は,論文"Semantic Parsing to Probabilistic Programs for Situated Question Answering"(http://www.aclweb.org/anthology/D16-1016)より転載