ノンプロ研初心者向けプログラミング講座第5期【Python コース】第5回

コミュニティ「ノンプログラマーのためのスキルアップ研究会」Python初心者 コース第5期第5回のツイートまとめです。コンテンツは「スクレイピング基礎」です。
5
KABE @KABE33899979

raise_for_status を記述しておくことによって、サイトの変更などが起こった時にトラブルを防止できる。 Webサイトはこちらの気づかない間にいつ変更されてもおかしくないものね #ノンプロ研

2021-05-24 20:50:48
🍊 @ponponmikankan

bs4でHTMLの中身を解析します。 #ノンプロ研

2021-05-24 20:53:06
🍊 @ponponmikankan

HTML、結構きれいなように見えますが、サイトによります。。。特にテーブルの取得ではセル結合問題などあるので要注意。その場合はpandasなどを利用して力技で解析したりします。 #ノンプロ研

2021-05-24 20:56:01
ume @plumfield56

BeautifulSoupの名前の由来はTag Soup(HTML)がどろどろしているという意味で、ダーティなHTMLのことを指してるとのこと。それをきれいにするからという由来。 不思議の国のアリスで登場する詩からという説もある。 #ノンプロ研

2021-05-24 21:00:48
kudou @kudou32323

BeautifulSoupでHTML抜き出せちゃうんですね #ノンプロ研

2021-05-24 21:04:54
ume @plumfield56

前にBeautifulSoupのfindメソッドの使い方を一覧でまとめました。 「テキスト検索」、「テキストの部分一致」など、詳細な指定をしたい場合は参考にしてください。 qiita.com/plumfield56/it… #ノンプロ研

2021-05-24 21:05:37
ume @plumfield56

公式ドキュメントに不思議の国のアリスでてくるのね。 kondou.com/BS4/#id7 #ノンプロ研

2021-05-24 21:12:47
kudou @kudou32323

スクレイピングでもforとリスト出てきた #ノンプロ研

2021-05-24 21:30:10
🍊 @ponponmikankan

スクレイピングは取れたらオッケーなところあるらしい。 #ノンプロ研

2021-05-24 21:32:20
kudou @kudou32323

この2つ同じ結果が返ってきた soup.find(attrs={'id': 'hoge'}) soup.select('#hoge') #ノンプロ研

2021-05-24 21:40:02
KABE @KABE33899979

htmlテキストをBeautifulSoupオブジェクトにする事をスープ化するという #ノンプロ研

2021-05-24 21:40:48
🍊 @ponponmikankan

一度HTML取得してしまえばいくらかき回してもサーバーにはアクセスしないので大丈夫。 #ノンプロ研

2021-05-24 21:53:34
ホッタ@技術ライティング講座受講中 @Hotta3216

終わりましたー スクレイピングは実際に手を動かさないとピンと来ない部分もありますし、正解も一つではないので、宿題含めていろいろ触ってみてください #ノンプロ研

2021-05-24 22:01:00
keitaro@イベント企画大好き!! DATA Saber/GCS認定コーチ @MaskDePQuery

今日のスクレイピングは難しかったな さあ、少し仕事するかな テレワークって時間問わないからおわんないやね 来週の早稲田の資料も作らなきゃ #ノンプロ研

2021-05-24 23:08:20