CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する上でうまくいかなかったことと,その対策をまとめる自分用のメモが中心.

NLP

FlairでNERを試す[Flair][NLP][NER]

CoNll2013のデータセットを使ってNERを実行するまでを雑にメモする. Flairが入ったDockerfileをcloneしてくる. git clone https://github.com/poteha/docker-nlp.git DockerfileからFlairのImageを作成 docker build -t nlp-gpu -f ./Dockerfile.gpu . 作…

汎用言語モデルBERTのpre-trainingを試す[NLP][BERT]

本記事では,2018年秋に登場し話題になったBERTのpre-trainingをとりあえず動かしてみるまでをレポート. 今回は,google-researchのリポジトリのサンプルテキストを使って動かすまでを紹介する.今後,自作のテキストを使ってpre-trainingする予定があるの…

CoNLL-2003の横についてる単語ってどういう意味?

NLP

NER(固有表現抽出)の評価の際によくでてくるCoNLL-2003. データセットを眺めていると, 単語の横にPRP や B-NP, O などの記号が付いている. これってどういう意味なの? と思ったので調べてみた. まず, CoNLL-2003データセットの構造を下記に載せる. " " O O H…

汎用言語モデルBERTをつかってNERを動かしてみる

本記事は,2018秋にバズった汎用言語モデルBERTをとりあえずつかってみたときのレポートである. このBERTというモデルをpre-trainingに用いると,様々なNLPタスクで高精度がでるようだ.詳細に関しては以下のリンクを参照. [1810.04805] BERT: Pre-trainin…

LeakGANをインストールしサンプルを動かすまで[GAN][NLP]

長文を生成可能なLeakGANをインストールし,サンプルを動かしてみたのでメモ. まずはLeakGAN用のコンテナをインストール.このとき使ったのは,nvidia-docker2. docker run -it --runtime=nvidia nvidia/cuda:7.5-cudnn5-devel-ubuntu14.04 コンテナに入り…

POS Taggingのタグ名を忘れたらIBMのサイトをみて思い出そう[NLP]

NLP

品詞が日本語でまとめられているので分かりやすい. www.ibm.com

Deep Semantic Role Labeling のソースコードを動かすまでの手順

nvidia-docker2でコンテナを作成。 --runtime=nvidiaを忘れないこと。 $ docker run -it --runtime=nvidia nvidia/cuda:7.5-cudnn5-devel-ubuntu14.04 ソースコードがtheano==0.9.0にしか対応しておらず、しかもtheano0.9.0はcuDNN5でしか動かない為、コンテ…

NLTKのコーパスを用いたStopWord除去(英語)[Python][NLP]

In [1]: from nltk.corpus import stopwords In [2]: stopWords = stopwords.words('english') In [3]: stopWords Out[3]: ['i', 'me', 'my', 'myself', 'we', 'our', (省略)] In[4]: len(stopWords) Out[4]: 179 In[5]: words = ["he", "gets", "an", "appl…

NLPででてくる BIO Tag って何?

BIO Tagは Entity Recognition や Semantic Role Labeling のタスクなどで単語につけるタグとして用いられ, それぞれの文字に以下の意味がある. B: 'beginning' 固有表現の始点を意味する I: 'inside' 固有表現の内部を意味する O: 'outside' 固有表現の外側…