ノンプロ研初心者向けプログラミング講座第5期【Python コース】第5回
今日はPython講座。もう5回目終盤です。 スクレイピングやります! #ノンプロ研 pic.twitter.com/qcPH0reDi4
2021-05-24 19:59:05スクレイピングは英語でscraping 「削ること」という意味があります。 なので個人的にはスクレイピングは 「集めたデータを削って使いやすい状態に加工する」 という集める・加工するまで含めると認識しています。 #ノンプロ研
2021-05-24 20:18:07▼NGな利用 ・著作権で守られているデータの商業利用 ・利用規約違反 ・サーバー不可による業務妨害 docs.pyq.jp/column/crawler… #ノンプロ研
2021-05-24 20:19:09APIを提供しているサービスはスクレイピングではなくてAPI活用しましょう。 twitter, YouTube, InstagramとかはAPIが提供されています。 #ノンプロ研
2021-05-24 20:21:22スクレイピングの注意点 ・利用条件の確認 ・公開情報に限定する ・損害を与えない ・著作権で保護されたコンテンツを商用利用しない ・APIが公開されていれば、APIを使うのが確実 ・許可が得られれば、問題なし #ノンプロ研
2021-05-24 20:22:56スクレイピングの手順 ①URLにリクエストをする ②Webサーバーからのレスポンスを受け取る ③レスポンスから欲しいデータを取り出す #ノンプロ研
2021-05-24 20:25:09HTTP通信とはブラウザとサーバーの間で情報をやり取りして、ブラウザにWEBサイトを表示させる通信方法。 Pythonではrequestモジュールで行う #ノンプロ研
2021-05-24 20:26:04情報古めだけどこんなにあるのか。 orangain.hatenablog.com/entry/scraping… #ノンプロ研
2021-05-24 20:27:29r = requests.get(url) でスクレイピングしたいサイトのURL格納して オブジェクトとして取得して 欲しい情報抜粋するということでいいのかな? #ノンプロ研
2021-05-24 20:33:21スクレイピングわくわくしますが 簡単なものであればスプレッドシートで関数いれるだけで取得できます。 azumikan.hatenablog.com/entry/2021/05/… #ノンプロ研
2021-05-24 20:33:26r = requests.get(url)で取得したサイトが「404 NOT FOUND」でもエラーにならないんだ・・・ #ノンプロ研
2021-05-24 20:36:14Requestsモジュールの公式サイトです。 requests-docs-ja.readthedocs.io/en/latest/user… 公式サイトは読みづらいですが、網羅されているので新しい発見を得られることが多いです。 あと力がつきます。なので慣れてきたら公式サイトで調べる癖をつけるとよいです。 #ノンプロ研
2021-05-24 20:41:39404以外のエラーだと、よく見るのこの辺かな 403:Forbidden 500:Internal Server Error 502: Bad Gateway #ノンプロ研
2021-05-24 20:42:27ちなみにDiscordbotの隠しコマンドのグーグル検索と隣IT🔍もこのパラーメータを利用してスクリプトを書いています。 #ノンプロ研
2021-05-24 20:48:24