CV・NLPハマりどころメモ

画像認識と自然言語処理を研究する中でうまくいかなかったことと、その対策をまとめる自分用メモが中心。

Beautifulsoup

Proxy環境下でWebスクレイピング[request][BeautifulSoup]

import urllib from bs4 import BeautifulSoup if __name__ == "__main__": proxy = urllib.request.ProxyHandler({'http': 'http://xx.xx.xx.xx:8080'}) opener = urllib.request.build_opener(proxy) url = "http://xx.xx" urllib.request.install_opener(…

Pythonでhtmlのファイルを読み込む方法[Python][Beautifulsoup]

from bs4 import BeautifulSoup import re links = [] html_path = "./hoge.html" with open(html_path) as f: html = f.read() soup = BeautifulSoup(html) parsed_links = soup.find_all("a") for link in parsed_links: TargetLink = link.get("href") if…

ワールドカードでタグ検索

# 必要なモジュールのインポート import BeautifulSoup import re try: # Python 3 from urllib import request except ImportError: # Python 2 import urllib2 as request # urlはスクレイピング対象 ex) url = http://www.hoge.co.jp/content response = …