ノンプロ研初心者向けプログラミング講座第5期【Python コース】第5回

コミュニティ「ノンプログラマーのためのスキルアップ研究会」Python初心者 コース第5期第5回のツイートまとめです。コンテンツは「スクレイピング基礎」です。
5
ホッタ@技術ライティング講座受講中 @Hotta3216

今日はPython講座。もう5回目終盤です。 スクレイピングやります! #ノンプロ研 pic.twitter.com/qcPH0reDi4

2021-05-24 19:59:05
拡大
🍊 @ponponmikankan

今日はスクレイピング基礎です! #ノンプロ研

2021-05-24 20:04:20
🍊 @ponponmikankan

ツイッターもバンバンどうぞ! #ノンプロ研

2021-05-24 20:10:12
kudou @kudou32323

とうとうスクレイピングの時間が来てしまった・・・ #ノンプロ研

2021-05-24 20:10:59
ume @plumfield56

スクレイピングは英語でscraping 「削ること」という意味があります。 なので個人的にはスクレイピングは 「集めたデータを削って使いやすい状態に加工する」 という集める・加工するまで含めると認識しています。 #ノンプロ研

2021-05-24 20:18:07
🍊 @ponponmikankan

▼NGな利用 ・著作権で守られているデータの商業利用 ・利用規約違反 ・サーバー不可による業務妨害 docs.pyq.jp/column/crawler… #ノンプロ研

2021-05-24 20:19:09
ume @plumfield56

APIを提供しているサービスはスクレイピングではなくてAPI活用しましょう。 twitter, YouTube, InstagramとかはAPIが提供されています。 #ノンプロ研

2021-05-24 20:21:22
kudou @kudou32323

スクレイピングの注意点 ・利用条件の確認 ・公開情報に限定する ・損害を与えない ・著作権で保護されたコンテンツを商用利用しない ・APIが公開されていれば、APIを使うのが確実 ・許可が得られれば、問題なし #ノンプロ研

2021-05-24 20:22:56
🍊 @ponponmikankan

スクレイピングの手順 ①URLにリクエストをする ②Webサーバーからのレスポンスを受け取る ③レスポンスから欲しいデータを取り出す #ノンプロ研

2021-05-24 20:25:09
🍊 @ponponmikankan

requestsモジュールはAnacondaに同梱されています。 #ノンプロ研

2021-05-24 20:25:25
KABE @KABE33899979

HTTP通信とはブラウザとサーバーの間で情報をやり取りして、ブラウザにWEBサイトを表示させる通信方法。 Pythonではrequestモジュールで行う #ノンプロ研

2021-05-24 20:26:04
KABE @KABE33899979

スクレイピングをやるにはPythonそのものの知識だけじゃなくてWebの知識も必要だな #ノンプロ研

2021-05-24 20:31:37
kudou @kudou32323

r = requests.get(url) でスクレイピングしたいサイトのURL格納して オブジェクトとして取得して 欲しい情報抜粋するということでいいのかな? #ノンプロ研

2021-05-24 20:33:21
🍊 @ponponmikankan

スクレイピングわくわくしますが 簡単なものであればスプレッドシートで関数いれるだけで取得できます。 azumikan.hatenablog.com/entry/2021/05/… #ノンプロ研

2021-05-24 20:33:26
kudou @kudou32323

r = requests.get(url)で取得したサイトが「404 NOT FOUND」でもエラーにならないんだ・・・ #ノンプロ研

2021-05-24 20:36:14
ume @plumfield56

Requestsモジュールの公式サイトです。 requests-docs-ja.readthedocs.io/en/latest/user… 公式サイトは読みづらいですが、網羅されているので新しい発見を得られることが多いです。 あと力がつきます。なので慣れてきたら公式サイトで調べる癖をつけるとよいです。 #ノンプロ研

2021-05-24 20:41:39
kudou @kudou32323

404以外のエラーだと、よく見るのこの辺かな 403:Forbidden 500:Internal Server Error 502: Bad Gateway #ノンプロ研

2021-05-24 20:42:27
🍊 @ponponmikankan

ちなみにDiscordbotの隠しコマンドのグーグル検索と隣IT🔍もこのパラーメータを利用してスクリプトを書いています。 #ノンプロ研

2021-05-24 20:48:24