概要

Pythonによる自動化を行うため手法を基本から丁寧に解説します。「Webスクレイピング」標準ライブラリを使ったスクレイピングからrequest、BeautifulSoup、pandasを使ったスクレイピングをハンズオンで解説します。HTTP通信の仕組みを理解した上で、HTMLを解読しながらWebスクレイピングを行うことができる。「Python から Excel ファイルを操作」openpyxlモジュールを使ったMicrosoft Excel ファイル(.xlsx) を扱う方法を解説します。

目的

  • Webスクレイピングの手法を理解する
  • Pythonでのスクレイピングの方法を知る
  • スクレイピングに必要なライブラリを理解する
  • PythonでのExcelファイルの操作の手法を理解する

対象者

  • Pythonの入門知識がある方(Python入門講のカリキュラムが分かる程度でOK)

基本日数

2日(カスタマイズ可能)

研修内容詳細

1 スクレイピングとは
 1.1 スクレイピングとは
 1.2 クローリングとは
 1.3 スクレイピングに必要な知識
 1.4 HTTP通信
 1.5 データ形式
 
2 Webページの取得
 2.1 Webページの取得
 2.2 文字コードの扱い
 2.3 取得したWebページの保存
 2.4 Requestsライブラリ
 2.5 ZIPファイルの取得
 
3 スクレイピング基礎
 3.1 スクレイピング基礎
 
4 BeautifulSoup
 4.1 BeautifulSoup
 4.2 BeautifulSoupの基本的な使い方
 4.3 BeautifulSoupでのスクレイピング
 4.4  RSSのスクレイピング
 
5 WebAPI
 5.1 WebAPI
 5.2 JSON形式(復習)
 5.3 WebサイトからJSONデータを取得
 
6 Pandas
 6.1 Pandasとは
 6.2 Pandasのデータ型(データ構造)
 6.3 Pandas基本
 6.4 Pandasでスクレイピング
 
7 クローリング
 7.1 クローリング
 
8 その他
 8.1 倫理的な注意事項
 
9 Excel ファイルを操作する
 9.1 openpyxl
 9.2 openpyxlの基本
 9.3 openpyxl 基本操作
 9.4 openpyxl 基本の操作
 9.5 openpyxl 基本操作
 9.6 openpyxl 使用例
 9.7 openpyxl と Pandas の連携
 9.8 Python in Excel