ノンプロ研初心者プログラミング講座【Pythonコース第3期】第5回
- ntakahashi0505
- 917
- 4
- 0
- 7
ChromeでHTMLのソースを見るショートカット WindowsならCtrl+U(MacならCommand+opt+U ) #ノンプロ研
2020-06-24 21:16:00BeatifulSoup(HTMLドキュメント, 'html.parser') 戻り値はBeautifulSoupオブジェクト →HTMLをsoup化する!(取り出せる形にする) #ノンプロ研
2020-06-24 21:17:35requestsライブラリでurlからレスポンスオブジェクトを作り、そのレスポンスからテキストを取り出して、beautifulsoup4ライブラリを使ってスープ化する(HTML構文を解析できる形にする、、?)。 スープ化って表現がシュールw #ノンプロ研
2020-06-24 21:25:28Chromeのデベロッパーツール ・Ctrl + I(アイ) ショートカット ・右クリックでの「要素の選択」 必要なものを決め打ちですぐ取れる #ノンプロ研
2020-06-24 21:27:44Ctrl+Shift+IでChromeのデベロッパーツールを開ける。 欲しい要素を選択して、その ・タグ名 ・id ・クラス ・セレクタ といった観点から解析する。ページ内検索との合わせ技も使いつつがんばる #ノンプロ研
2020-06-24 21:29:46BeautifulSoupオブジェクトのfindメソッドは最初の1つにマッチする。なので、ページ内でユニークな、titleタグやid属性なんかに有効。あとは、表が1コしかないケースでtableタグとか。「スクレイピングではid属性あったら超ラッキーです」#ノンプロ研
2020-06-24 21:33:58title、h1、tableタグは1ページに1つしかない場合が多い →findメソッドでとってきやすい id属性(HTML文書内で重複したid名はない) →(スクレイピングする人には)ラッキー! #ノンプロ研
2020-06-24 21:34:16bs4.BeautifulSoup()のパラメータに渡せるパーサーはhtml5libやlxmlなどいくつか種類があってそれぞれ相性があるけど、初級の私はとりあえずhtml.parserで良さそう。 #ノンプロ研
2020-06-24 21:35:27attrsはattributesの略 paramsはparametersの略 プログラミングでよく使う英語は知っておくと理解が早まりそうですね。 #ノンプロ研
2020-06-24 21:44:22演習5-09 @(隣IT)検索結果の結果ページ、その3ページ目までのH2要素を抜き出せ 「急に難易度あがります。今日の総まとめですね」#ノンプロ研
2020-06-24 21:47:25デベロッパーツールでセレクターを調べられるので、 「Copy Selector」を使えばいい! 作り方は(スクレイピング目的なら)知らなくてよい #ノンプロ研
2020-06-24 21:54:32cssセレクタで取得する方法は最後の手段感がちょっとある。本来はサイトの構造を把握した状態でやるほうが望ましくて、でないとページの見た目が変わったらスクラップできなくなりかねないから #ノンプロ研
2020-06-24 21:56:10おさらい!スクレイピングの際に行われる手順は、 (1)URLにリクエストを送る (2)Webサーバーからのレスポンスを受け取る (3)レスポンスから欲しいデータを取り出す(※) この(1)(2)にはPythonのrequestsライブラリ、(3)にはBeautifulSoup4ライブラリを使用する。 #ノンプロ研
2020-06-24 22:04:32【第5回:Python学習】 ★スクレイピング:web上のデータを収集すること ※著作権など利用には注意が必要!! ★スクレイピングの流れ ①URLにリクエストをする ②WEBサーバーからのレスポンスを受け取る ③レスポンスから欲しいデータを取り出す ★Chromeの「Ctr + U」の結果に驚愕💦 #ノンプロ研
2020-06-24 22:07:31