CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する中でうまくいかなかったことと、その対策をまとめる自分用メモが中心。

ワールドカードでタグ検索

# 必要なモジュールのインポート
import BeautifulSoup
import re

try:
     # Python 3
     from urllib import request
except ImportError:
      # Python 2
     import urllib2 as request

# urlはスクレイピング対象 ex) url = http://www.hoge.co.jp/content
response = request.urlopen(url)
body = response.read()
soup = BeautifulSoup(body)

# ワイルドカードでタグ検索
soup.find_all(href=re.compile(".*"))