ノンプロ研Python初級講座_第7期_第5回

3
前へ 1 2 ・・ 5 次へ
な~@ぱいそん🐍 @PythonNao703

HTTP通信は、前回GASでやったことのような・・・・ #ノンプロ研 #Python講座 #ぱいそん

2021-12-08 20:16:23
な~@ぱいそん🐍 @PythonNao703

HTML #ノンプロ研 #Python講座 #ぱいそん 取得したデータからほしいデータを取り出す

2021-12-08 20:16:45
kudou @kudou32323

スクレイピングの注意点1 利用条件の確認する(ログインが必要なサイトは、ログインに関する規約を確認する)  ・著作権で保護されたコンテンツを商用利用しない  ・利用規約違反  ・サーバーに負荷がかかる行為は禁止(業務妨害となる場合もある) #ノンプロ研 #Python講座

2021-12-08 20:17:12
kudou @kudou32323

スクレイピングが禁止されている代表的なサイト ・Twitter ・Facebook ・Instagram ・amazon ・Yahoo!ファイナンス など #ノンプロ研 #Python講座

2021-12-08 20:17:48
な~@ぱいそん🐍 @PythonNao703

スクレイピングって法的にどうなの? #ノンプロ研 #Python講座 #ぱいそん ・著作権の侵害  著作権で守られているデータの商用利用は基本NG ・利用規約違反  アカウント登録して利用しているサイトについては、注意が必要 ・サーバー不可による業務障害

2021-12-08 20:18:47
kudou @kudou32323

スクレイピングの注意点2 もしもスクレイピングしてもいいのかわからない場合は、サイト責任者へ相談してください。 許可を得て、常識の範囲内でスクレイピングを行えば、問題ありません。 #ノンプロ研 #Python講座

2021-12-08 20:19:13
kudou @kudou32323

スクレイピングを行う際の指針 ・許可を得る ・利用条件を確認する ・公開情報に限定する ・損害を与えない ・著作権で保護されたコンテンツを商用利用しない #ノンプロ研 #Python講座

2021-12-08 20:20:18
な~@ぱいそん🐍 @PythonNao703

相手の立場に立って節度あるスクレイピングを #ノンプロ研 #Python講座 #ぱいそん 明らかに頻繁にデータ取得しすぎるとか・・・

2021-12-08 20:21:17
kudou @kudou32323

スクレイピングは以下のような流れで行います。 1. WebサーバーにURLをリクエストする 2. Webサーバーからレスポンスを受け取る 3. 受け取ったレスポンスから必要な部分を抜き出す #ノンプロ研 #Python講座

2021-12-08 20:23:40
な~@ぱいそん🐍 @PythonNao703

HTTPリクエストに応じて、必要な情報をHTTPレスポンスにのせて情報を返す #ノンプロ研 #Python講座 #ぱいそん その一部にHTMLが含まれる

2021-12-08 20:23:49
kudou @kudou32323

1と2はの部分を「HTTP通信」といい、 pythonでは「requestsモジュール」を使用して行います。 3の部分は「HTML解析」といい pythonでは「beautifulsoup4モジュール」を使用して行います。 #ノンプロ研 #Python講座

2021-12-08 20:24:12
な~@ぱいそん🐍 @PythonNao703

URLにリクエストする Webサーバーからのレスポンスを受け取る →リクエストモジュール #ノンプロ研 #Python講座 #ぱいそん 同梱されているのでインストールは必要なし

2021-12-08 20:24:22
な~@ぱいそん🐍 @PythonNao703

import requests でインポートする requests.get(url) getリクエストをしてレスポンスを受け取る。戻り値はResponseオブジェクト #ノンプロ研 #Python講座 #ぱいそん

2021-12-08 20:25:32
kudou @kudou32323

r = requests.get(url) このときのrが戻り値(Responseオブジェクト) Responseオブジェクト 指定したURLのHTML情報を取得できる #ノンプロ研 #Python講座

2021-12-08 20:25:47
kudou @kudou32323

Responseオブジェクト.text 指定したURLのHTML情報をテキストで取得できる #ノンプロ研 #Python講座

2021-12-08 20:29:03
な~@ぱいそん🐍 @PythonNao703

演習! 3000文字でもほんのちょっとしか取れないな・・・・ #ノンプロ研 #Python講座 #ぱいそん

2021-12-08 20:30:40
kudou @kudou32323

404 NotFound 存在しないURLを指定したときに出てくるエラー 404といえば・・・あの人。 #ノンプロ研 #Python講座

2021-12-08 20:34:47
な~@ぱいそん🐍 @PythonNao703

404 Not Found #ノンプロ研 #Python講座 #ぱいそん 意図していないURLのハズ 正しいページか判断しずらいので ステータスコードを確認すると判断できる

2021-12-08 20:34:52
kudou @kudou32323

ステータスコード 100~300番台は正常 400~500番台はエラー リクエスト成功は「200」が返ってくる #ノンプロ研 #Python講座

2021-12-08 20:35:04
前へ 1 2 ・・ 5 次へ