ノンプロ研初心者プログラミング講座【Pythonコース第11期】第5回
- kudou32323
- 482
- 3
- 0
- 0
今日はノンプロ研初心者講座【Pythonコース】第11期の第5回目です! 今日のテーマは「スクレイピングの基礎知識」です! とうとうスクレイピングまできましたね・・・。 #ノンプロ研 #Python講座 pic.twitter.com/XNo7pwpqj7
2023-06-26 19:19:14ゴールはPythonで実務で使える簡単なツールを作る!です!かにはGoogleフォームを毎朝送信するツールを作成します!できるかなー(V)o¥o(V) #ノンプロ研 #Python講座
2023-06-26 20:12:09今日はスクレイピングの基礎です! requestモジュールでHTTP通信、beautifulsoup4モジュールでHTMLの解析にチャレンジです(/・ω・)/ #ノンプロ研 #Python講座
2023-06-26 20:14:08HTMLはWebサイトの構造を作るマークアップ言語。 Pythonみたいに何かを実行するプログラミング言語ではないです。 #ノンプロ研 #Python講座
2023-06-26 20:15:43スクレイピング注意点 ・著作権で守られているデータの商用利用はNG ・利用規約で禁止されてたらNG ・サーバー負荷による業務妨害NG #ノンプロ研 #Python講座
2023-06-26 20:17:39スクレイピングの指針 ・許可を得る ・利用条件を確認する ・公開情報に限定する ・損害を与えない ・著作権のあるコンテンツを商用利用しない #ノンプロ研 #Python講座
2023-06-26 20:19:05Twitterは規約でもスクレイピングが禁止されているし、開発者ツールを使って要素を取得すると、意味のない文字列でIdが構成されているので対策されているのがわかるので、興味があれば見てみるのがおすすめ #ノンプロ研 #Python講座
2023-06-26 20:21:25スクレイピングに欠かせない、HTTP通信のしくみ。 ブラウザはHTTPリクエストをWebサーバーに送信、WebサーバーはHTTPレスポンスで返答。ブラウザは返ってきた返答を受け取って人が見やすい方に画面に表示してくれる。 #ノンプロ研 #Python講座
2023-06-26 20:21:41requestモジュールは、ブラウザと同じようにHTTPリクエストを送り、Webサーバーから帰ってくるHTTPレスポンスを受け取ります。 #ノンプロ研 #Python講座
2023-06-26 20:23:02HTTPリクエストにはGETリクエスト、POSTリクエストなどいくつか種類がありますが、スクレイピングではGETリクエストが使えればOKだそうです(/・ω・)/ #ノンプロ研 #Python講座
2023-06-26 20:23:41requestモジュールでは、HTTPレスポンスはResponseオブジェクトとして受け取ります。 #ノンプロ研 #Python講座 pic.twitter.com/i5UvYMtL1X
2023-06-26 20:27:39#ノンプロ研 #Python講座 早速演習です。r.text[:4000]でたくさん文字列が出てきました!
2023-06-26 20:28:32あれれ、階層があやしくなってきた requestモジュール /Responseオブジェクト #ノンプロ研 #Python講座 pic.twitter.com/bJHjElpS8S
2023-06-26 20:29:06バタバタして帰ってきて、一息つきながらkudou先生のrequestsモジュールの話を聞くのが、今日一番のまったりんごタイムになっている🍎 #ノンプロ研 #Python講座 pic.twitter.com/N5KGnsYlCW
2023-06-26 20:31:06んん? ページがない時はどうなる?? #ノンプロ研 #Python講座 pic.twitter.com/z0Yy5sHn0x
2023-06-26 20:32:31404だとエラーになりそうなのに、 404ページのHTML情報が取得しちゃうんですね~(V)o¥o(V) そこで役立つ、raise_for_status関数! エラーコードが返ったときにHTTPErrorを発生させます◎ #ノンプロ研 #Python講座 pic.twitter.com/b9aMyWcqjT
2023-06-26 20:38:50ステータスコードが200番以外は取得できていないので、リクエストが成功しなかったらエラーを発生させると、「このリクエストはエラーになったんだなー」というのがわかりやすい🐣 #ノンプロ研 #Python講座 pic.twitter.com/KPo0hezX0M
2023-06-26 20:39:05そうか、NotFoundだけど、周りの枠とかが表示されて長いHTML文が返ってくる。 ページの有無をステータスコードを使って判別する #ノンプロ研 #Python講座
2023-06-26 20:40:45