お作法から加工方法まで丁寧に解説! "Pythonで作るWebクローラ入門" #pyconjp #pyconjp_203
Pythonで作るWebクローラ入門
Ai Makabi @a_macbee
Pythonの代表的なクローラ構築フレームワークScrapyを利用して,目的に応じたクローラを構築する方法について学びます.発表中では,クロール対象のサイトやサービスに迷惑をかけないようなテクニックについて言及すると共に,BeautifulSoup4の利用方法を中心に,クロールして集めたデータの抽出(スクレイピング)・加工方法についても紹介します.
リンク
Wikipedia
岡崎市立中央図書館事件
岡崎市立中央図書館事件(おかざきしりつちゅうおうとしょかんじけん)は、2010年3月頃に岡崎市立図書館の蔵書検索システムにアクセス障害が発生し、利用者の一人が逮捕された事件である。利用者に攻撃の意図はなく、また、根本的な原因が図書館側のシステムの不具合にあったことから論議を呼んだ。逮捕された人物が取調べの後、Librahackというサイトを立ち上げて解説をしたことから、Librahack事件とも呼ばれる。
2010年3月頃、市民から岡崎市立図書館のウェブサイトの蔵書検索システムに対し接続が出来ないと苦情が
ギーラボちゃん@ギークラボ長野
@glnagano
ドメイン指定でドメイン配下総ぶっこぬき・・(ネトラン厨みたいな発言) #pyconjp #pyconjp_203
2016-09-21 13:22:53
ギーラボちゃん@ギークラボ長野
@glnagano
scrayはネットラジオ放送局のwebページような毎週更新されて古いモノが消えてしまうサイトの保存に便利だったりします?? #pyconjp #pyconjp_203
2016-09-21 13:26:07
Takeshi Akutsu
@akucchan_world
真嘉比さん「Scrapyのparseメソッドの代わりに、BeautifulSoupでparseしてもよい。」 #pyconjp_203
2016-09-21 13:31:09
Hironori Washizaki
@Hiro_Washi
#pyconjp PyCon JP 2016 招待講演「Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン」スライド資料を公開しました。多くの内容はNII坂本氏や卒業生・現役生の積み重ねの成果となります。slideshare.net/hironoriwashiz…
2016-09-21 13:34:38
Shinichi Nakagawa / 中川 伸一
@shinyorke
Javascript入っちゃったらPhantom JSとか使うしか無いですよね確か(間違ってたらスイマセン) #pyconjp_203
2016-09-21 13:40:31
Aratoon | あらとぅーん
@ara_ta3
データ構造の変更時にクローリングも失敗しないようにスクレイピングとクローリングは分けたほうがいい #pyconjp #pyconjp_203
2016-09-21 13:42:03
ohkawa
@ohkawa_m
XPath抽出には Chromeプラグインの XPath Helper もいいですよね(発表内容ではないです) #pyconjp_203
2016-09-21 13:42:30