CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する中でうまくいかなかったことと、その対策をまとめる自分用メモが中心。

2019-05-28から1日間の記事一覧

汎用言語モデルBERTのpre-trainingを試す[NLP][BERT]

本記事では,2018年秋に登場し話題になったBERTのpre-trainingをとりあえず動かしてみるまでをレポート. 今回は,google-researchのリポジトリのサンプルテキストを使って動かすまでを紹介する.今後,自作のテキストを使ってpre-trainingする予定があるの…

BERTにおけるテキストクレンジングを紹介[BERT]

汎用言語モデルBERTを使用する際に,テキストクレンジングを行う関数を見つけ,読んでみると勉強になったので記事にしてみた. 参考にしたのは,Google Researchの実装である. github.com まず,BERTのコード(tokenization.pyのFullTokenizerクラスのtokeni…