第3回Webスクレイピング勉強会@東京のまとめ

第3回Webスクレイピング勉強会@東京のToggetterまとめです。ハッシュタグ「#東京スクラッパー」を抽出しているだけなので、それ以外のもあれば追加してください。 http://tokyoscrapper.connpass.com/event/9023/
6
Takuro SASAKI @dkfj

これから発表資料する資料です。難易度は低めです。 "AWSを利用してスクレイピングの悩みを解決するチップス" slideshare.net/takurosasaki/s… #東京スクラッパー

2014-10-26 16:40:38
げんえい☕ @gennei

#東京スクラッパー / “Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス” htn.to/pMWtSn

2014-10-26 16:46:53
nezuq @nezuq

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 amazon.co.jp/dp/4797380357/… @amazonJPさんから #東京スクラッパー

2014-10-26 16:52:18
げんえい☕ @gennei

google banには気をつけよう。特に学校、オフィスなど。 #東京スクラッパー

2014-10-26 16:52:52
nezuq @nezuq

Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 #東京スクラッパー amazon.co.jp/dp/4797380357/… @amazonJPから

2014-10-26 16:53:08
ゆあ☆ミ @you21979

#東京スクラッパー グーグルのクロールは会社などの普段使う共有のIPでやるとbanされたときにグーグル使えなくなるからやらないほうがいい

2014-10-26 16:54:55
lumin @lumin

クラウドはGUIやCUIをつかったら負けかなと思う。 #東京スクラッパー

2014-10-26 17:00:50
kitanow @_mkitano

中小サイトは処理件数が20~30件/秒というのもあるので、多重度をあげないようにする、ですよねー #東京スクラッパー

2014-10-26 17:07:37
Takuro SASAKI @dkfj

Perlあるあるになってるw殆ど同じ問題にぶつかってきたよ #東京スクラッパー

2014-10-26 17:33:59
Takuro SASAKI @dkfj

Excelでスクレイピングはありだと思う。私も一番最初に作ったクローラーは、ExcelのVBAからIEを立ち上げるやつだった。 #東京スクラッパー

2014-10-26 17:39:25
げんえい☕ @gennei

Excelでスクレイピングってなに言っているんだと思っていたけど、とても参考になった。 #東京スクラッパー

2014-10-26 17:41:00
Takuro SASAKI @dkfj

ちなみにこんな本があるようですよ。読んでないけど、気になっています。 "Excel VBAでIEを思いのままに操作できるプログラミング術" amzn.to/1tzd8ff #東京スクラッパー

2014-10-26 17:48:17
kitanow @_mkitano

Webは自然言語で出来ている、それを理解できれば新しい知識として獲得できる #東京スクラッパー

2014-10-26 17:53:17
くーろん coulomb @coullom

開催おつかれさまでした!NLPの方でもよろしくお願いします #東京スクラッパー

2014-10-26 17:54:54
Takuro SASAKI @dkfj

発表のお陰で、順位が大幅アップしたw 皆様、ありがとうございます。 "Rubyによるクローラー開発技法" amzn.to/1lsJ5id #東京スクラッパー pic.twitter.com/Iw2ISFRvY4

2014-10-26 17:55:44
拡大
botisle @hi86074659

ブラウザがIE に依存しないSelenium は 普通に検証で使ってみようと思っている #東京スクラッパー

2014-10-26 19:50:43