2021年5月24日

ノンプロ研初心者向けプログラミング講座第５期【Python コース】第５回

コミュニティ「ノンプログラマーのためのスキルアップ研究会」Python初心者コース第５期第５回のツイートまとめです。コンテンツは「スクレイピング基礎」です。

プログラミング requests スクレイピングノンプロ研 Python beautifulsoup 初心者講座

Hotta3216
799
5
0
5

ホッタ@技術ライティング講座受講中 @Hotta3216

今日はPython講座。もう５回目終盤です。スクレイピングやります！ #ノンプロ研 pic.twitter.com/qcPH0reDi4

2021-05-24 19:59:05

拡大

🍊 @ponponmikankan

今日はスクレイピング基礎です！ #ノンプロ研

2021-05-24 20:04:20

🍊 @ponponmikankan

ツイッターもバンバンどうぞ！ #ノンプロ研

2021-05-24 20:10:12

🍊 @ponponmikankan

ブログ…。 #ノンプロ研

2021-05-24 20:10:47

kudou @kudou32323

とうとうスクレイピングの時間が来てしまった・・・ #ノンプロ研

2021-05-24 20:10:59

🍊 @ponponmikankan

3週後卒業か…え。 #ノンプロ研

2021-05-24 20:11:35

🍊 @ponponmikankan

HTML通信のしくみから #ノンプロ研

2021-05-24 20:17:12

ume @plumfield56

スクレイピングは英語でscraping 「削ること」という意味があります。なので個人的にはスクレイピングは「集めたデータを削って使いやすい状態に加工する」という集める・加工するまで含めると認識しています。 #ノンプロ研

2021-05-24 20:18:07

🍊 @ponponmikankan

▼NGな利用・著作権で守られているデータの商業利用・利用規約違反・サーバー不可による業務妨害 docs.pyq.jp/column/crawler… #ノンプロ研

2021-05-24 20:19:09

ume @plumfield56

APIを提供しているサービスはスクレイピングではなくてAPI活用しましょう。 twitter, YouTube, InstagramとかはAPIが提供されています。 #ノンプロ研

2021-05-24 20:21:22

kudou @kudou32323

スクレイピングの注意点・利用条件の確認・公開情報に限定する・損害を与えない・著作権で保護されたコンテンツを商用利用しない・APIが公開されていれば、APIを使うのが確実・許可が得られれば、問題なし #ノンプロ研

2021-05-24 20:22:56

🍊 @ponponmikankan

スクレイピングの手順 ①URLにリクエストをする ②Webサーバーからのレスポンスを受け取る ③レスポンスから欲しいデータを取り出す #ノンプロ研

2021-05-24 20:25:09

🍊 @ponponmikankan

requestsモジュールはAnacondaに同梱されています。 #ノンプロ研

2021-05-24 20:25:25

KABE @KABE33899979

HTTP通信とはブラウザとサーバーの間で情報をやり取りして、ブラウザにWEBサイトを表示させる通信方法。 Pythonではrequestモジュールで行う #ノンプロ研

2021-05-24 20:26:04

🍊 @ponponmikankan

情報古めだけどこんなにあるのか。 orangain.hatenablog.com/entry/scraping… #ノンプロ研

2021-05-24 20:27:29

keitaro@イベント企画大好き！！　DATA Saber/GCS認定コーチ @MaskDePQuery

ここでリストが出てくるのね #ノンプロ研

2021-05-24 20:31:35

KABE @KABE33899979

スクレイピングをやるにはPythonそのものの知識だけじゃなくてWebの知識も必要だな #ノンプロ研

2021-05-24 20:31:37

kudou @kudou32323

r = requests.get(url) でスクレイピングしたいサイトのURL格納してオブジェクトとして取得して欲しい情報抜粋するということでいいのかな？ #ノンプロ研

2021-05-24 20:33:21

🍊 @ponponmikankan

スクレイピングわくわくしますが簡単なものであればスプレッドシートで関数いれるだけで取得できます。 azumikan.hatenablog.com/entry/2021/05/… #ノンプロ研

2021-05-24 20:33:26

kudou @kudou32323

r = requests.get(url)で取得したサイトが「404 NOT FOUND」でもエラーにならないんだ・・・ #ノンプロ研

2021-05-24 20:36:14

ume @plumfield56

Requestsモジュールの公式サイトです。 requests-docs-ja.readthedocs.io/en/latest/user… 公式サイトは読みづらいですが、網羅されているので新しい発見を得られることが多いです。あと力がつきます。なので慣れてきたら公式サイトで調べる癖をつけるとよいです。 #ノンプロ研

2021-05-24 20:41:39

kudou @kudou32323

404以外のエラーだと、よく見るのこの辺かな 403：Forbidden 500：Internal Server Error 502： Bad Gateway #ノンプロ研

2021-05-24 20:42:27

🍊 @ponponmikankan

リクエストげっと…。 #ノンプロ研

2021-05-24 20:46:44

🍊 @ponponmikankan

ちなみにDiscordbotの隠しコマンドのグーグル検索と隣IT🔍もこのパラーメータを利用してスクリプトを書いています。 #ノンプロ研

2021-05-24 20:48:24

🍊 @ponponmikankan

レスポンスコード一覧。 developer.mozilla.org/ja/docs/Web/HT… #ノンプロ研