概要

機械学習やディープラーニングで必要なデータをWeb上から集めるWebスクレイピング。Pythonでスクレイピングを行うための具体的な手法を基本から丁寧に解説します。標準ライブラリを使ったスクレイピングからrequest、BeautifulSoup、pandasを使ったスクレイピングをハンズオンで解説します。

目的

  • Webスクレイピングの手法を理解する
  • Pythonでのスクレイピングの方法を知る
  • スクレイピングに必要なライブラリを理解する

対象者

  • Pythonの入門知識がある方(Python入門講のカリキュラムが分かる程度でOK)

基本日数

1日(カスタマイズ可能)

研修内容詳細

1. スクレイピング
 1.1 スクレイピングとは
 1.2 HTTP通信
 1.3 データ形式

2. インターネットアクセス
 2.1 Webページの取得
 2.2 標準ライブラリ
 2.3 requestsライブラリ
 2.4 プロキシ環境下でのアクセス

3.バイナリファイルの収集
 3.1 画像の取得
 3.2 ZIPファイルの収集

4.Webスクレイピング
 4.1 正規表現によるスクレイピング
 4.2 BeautifulSoup
 4.3 RSSのスクレイピング
 4.4 高度なスクレイピング

5.WebAPI
 5.1 JSON形式
 5.2 WebAPIへのアクセス
 5.3 Pandasを使ったスクレイピング
 5.4 定期実行によるクローラー作成

6. Scrapy
 6.1 Scarpayによクローラ作成

7.その他
 7.1 スクレイピング注意事項