- plumfield56
- 962
- 5
- 0
- 0
必要な知識 #ノンプロ研 #Python講座 #ぱいそん pic.twitter.com/ycHMIkwn4F
2021-12-08 20:16:01スクレイピングの注意点1 利用条件の確認する(ログインが必要なサイトは、ログインに関する規約を確認する) ・著作権で保護されたコンテンツを商用利用しない ・利用規約違反 ・サーバーに負荷がかかる行為は禁止(業務妨害となる場合もある) #ノンプロ研 #Python講座
2021-12-08 20:17:12スクレイピングが禁止されている代表的なサイト ・Twitter ・Facebook ・Instagram ・amazon ・Yahoo!ファイナンス など #ノンプロ研 #Python講座
2021-12-08 20:17:48スクレイピングって法的にどうなの? #ノンプロ研 #Python講座 #ぱいそん ・著作権の侵害 著作権で守られているデータの商用利用は基本NG ・利用規約違反 アカウント登録して利用しているサイトについては、注意が必要 ・サーバー不可による業務障害
2021-12-08 20:18:47スクレイピングの注意点2 もしもスクレイピングしてもいいのかわからない場合は、サイト責任者へ相談してください。 許可を得て、常識の範囲内でスクレイピングを行えば、問題ありません。 #ノンプロ研 #Python講座
2021-12-08 20:19:13スクレイピングを行う際の指針 ・許可を得る ・利用条件を確認する ・公開情報に限定する ・損害を与えない ・著作権で保護されたコンテンツを商用利用しない #ノンプロ研 #Python講座
2021-12-08 20:20:18スクレイピングする前に注意👀 #ノンプロ研 #Python講座 #ぱいそん pic.twitter.com/EurueKcJ72
2021-12-08 20:20:21相手の立場に立って節度あるスクレイピングを #ノンプロ研 #Python講座 #ぱいそん 明らかに頻繁にデータ取得しすぎるとか・・・
2021-12-08 20:21:17次は、HTTP通信 #ノンプロ研 #Python講座 #ぱいそん pic.twitter.com/oaNnP8eMNF
2021-12-08 20:22:16スクレイピングは以下のような流れで行います。 1. WebサーバーにURLをリクエストする 2. Webサーバーからレスポンスを受け取る 3. 受け取ったレスポンスから必要な部分を抜き出す #ノンプロ研 #Python講座
2021-12-08 20:23:40HTTPリクエストに応じて、必要な情報をHTTPレスポンスにのせて情報を返す #ノンプロ研 #Python講座 #ぱいそん その一部にHTMLが含まれる
2021-12-08 20:23:491と2はの部分を「HTTP通信」といい、 pythonでは「requestsモジュール」を使用して行います。 3の部分は「HTML解析」といい pythonでは「beautifulsoup4モジュール」を使用して行います。 #ノンプロ研 #Python講座
2021-12-08 20:24:12URLにリクエストする Webサーバーからのレスポンスを受け取る →リクエストモジュール #ノンプロ研 #Python講座 #ぱいそん 同梱されているのでインストールは必要なし
2021-12-08 20:24:22涙のrequestsモジュール(言いたいだけ) #ノンプロ研 #Python講座
2021-12-08 20:25:00import requests でインポートする requests.get(url) getリクエストをしてレスポンスを受け取る。戻り値はResponseオブジェクト #ノンプロ研 #Python講座 #ぱいそん
2021-12-08 20:25:32r = requests.get(url) このときのrが戻り値(Responseオブジェクト) Responseオブジェクト 指定したURLのHTML情報を取得できる #ノンプロ研 #Python講座
2021-12-08 20:25:47Responsオブジェクト #ノンプロ研 #Python講座 #ぱいそん pic.twitter.com/s7dQD9wPwU
2021-12-08 20:26:13Responseオブジェクト.text 指定したURLのHTML情報をテキストで取得できる #ノンプロ研 #Python講座
2021-12-08 20:29:03404 NotFound 存在しないURLを指定したときに出てくるエラー 404といえば・・・あの人。 #ノンプロ研 #Python講座
2021-12-08 20:34:47404 Not Found #ノンプロ研 #Python講座 #ぱいそん 意図していないURLのハズ 正しいページか判断しずらいので ステータスコードを確認すると判断できる
2021-12-08 20:34:52ステータスコード 100~300番台は正常 400~500番台はエラー リクエスト成功は「200」が返ってくる #ノンプロ研 #Python講座
2021-12-08 20:35:04