ノンプロ研初心者プログラミング講座【Pythonコース第3期】第5回

コミュニティ「ノンプログラマーのためのスキルアップ研究会」の初心者プログラミング講座Pythonコース第5回のツイートまとめです。コンテンツは「スクレイピング基礎」です。
3

コミュニティ「ノンプログラマーのためのスキルアップ研究会」についてのお知らせ
https://tonari-it.com/community-nonpro-semi/

コミュニティ連携型!ノンプロ向けプログラミング講座開講のお知らせ
https://tonari-it.com/nonpro-beginner-vba-gas/

タカハシノリアキ @ntakahashi0505

さ、本日は初心者Python講座の第5回。 テーマは「スクレイピング基礎」です~ #ノンプロ研 pic.twitter.com/V1a9QeChk5

2020-06-24 19:43:29
拡大
しかお @shikao29

今日はPython初級講座第5回「スクレイピング基礎」 いよいよですね! #ノンプロ研

2020-06-24 19:53:45
すえ @sue1242

これからPython初級講座第5回。今日はスクレイピング やります。いよいよ実践っぽくなります。 #ノンプロ研

2020-06-24 20:02:23
しかお @shikao29

@chap0201 さんの「実は・・・」が衝撃! 次の懇親会はいつでしょうか!? #ノンプロ研

2020-06-24 20:08:45
@shotarosawada

初級Python講座の第三回講座。今日はスクレイピング基礎編で、いつもの1.5倍のボリュームがあるそうです #ノンプロ研

2020-06-24 20:08:51
すえ @sue1242

今日のアイスブレイクのテーマ「スクレイピングしたいもの」 スポーツアナリストのかたが多いのでそれ関連(試合結果等)が多いですね。 #ノンプロ研

2020-06-24 20:09:06
しかお @shikao29

Webデータベースを導入したら、スクレイピングと相性が良いのでしょうか?? #ノンプロ研

2020-06-24 20:10:30
@shotarosawada

スクレイピングはけっこう泥臭いところがあって、いろんなサイトを経験しないといけないようなところがあるんです。対戦相手を早めに決めておくのも大切かな、と #ノンプロ研

2020-06-24 20:12:03
しかお @shikao29

スクレイピング→意外と泥臭い 対戦相手を早めに見つけるのが大事。 #ノンプロ研

2020-06-24 20:12:05
しかお @shikao29

<スクレイピングをするには> 1.HTTP通信の知識 2.HTMLの知識 ※著作権侵害、利用規約違反、サーバー負荷は駄目! ルールを守って楽しくスクレイピング! #ノンプロ研

2020-06-24 20:15:05
@shotarosawada

スクレイピングは著作権法の範囲内で。私的利用の範囲内で、そして情報収集の範囲内で。コピーしたものをそのまま仕事で使ったりしないこと。あと、利用規約はよむこと #ノンプロ研

2020-06-24 20:16:16
おおさき🥔小さなIT活用で快適な農場づくりを @massa_potato

スクレイピングで法的に気を付けること。 ・著作権の侵害はNG。集めたものは私的利用の範囲で ・利用規約でスクレイピングに関する規約がないかチェック!(特にログインして使用するサービス) ・短期間に大量にアクセスしてサーバーに負荷をかけると業務妨害になるのでやめよう #ノンプロ研

2020-06-24 20:19:29
@shotarosawada

ログイン後の世界は利用規約に同意しているので、とくに著作権やサーバ負荷など気を付けたほうがいいですよ、との助言。相手の迷惑を想像しましょう、と。API公開しているならそっちも検討 #ノンプロ研

2020-06-24 20:22:22
しかお @shikao29

API公開しているなら(スクレイピングよりは)そちらを使ったほうが確実、安全 #ノンプロ研

2020-06-24 20:23:29
おおさき🥔小さなIT活用で快適な農場づくりを @massa_potato

サイトよってはスクレイピングではなく提供されているAPIを使うのも手。 #ノンプロ研

2020-06-24 20:23:36
@shotarosawada

人がwebページを閲覧することも、それ自体すでにある種の複製。#ノンプロ研

2020-06-24 20:25:10
すえ @sue1242

まずは「スクレイピングで法的に気をつけたいこと」の話。 #ノンプロ研

2020-06-24 20:26:30
しかお @shikao29

<browser> →HTTP request →<Web Server> →HTTP response →<browser> #ノンプロ研

2020-06-24 20:27:17
おおさき🥔小さなIT活用で快適な農場づくりを @massa_potato

出た、HTTP通信。本を読んで理解してきてるつもりでも苦手意識が抜けない(イメージは掴めてもたぶんちゃんと説明できない。。) #ノンプロ研

2020-06-24 20:30:02
@shotarosawada

HTTP通信の各段階をPythonの各モジュールで再現する。requestsモジュールは、サーバへのhttpリスエストと、レスポンスを担当できる #ノンプロ研

2020-06-24 20:30:17
すえ @sue1242

続いてHTTP通信とHTMLの話。 いきなり全貌を把握するのは難しいので、1つずつやってきましょう。まずはHTTPリクエストからやってみましょう。 #ノンプロ研

2020-06-24 20:30:18
しかお @shikao29

requests module get , post, put など、色々なリクエストの種類がある 現時点ではgetが主 #ノンプロ研

2020-06-24 20:32:28
@shotarosawada

requestモジュールをインポートし、reqests.get(url)でサーバからのHTTPレスポンスをResposeオブジェクトで取得できる #ノンプロ研

2020-06-24 20:33:58