クローリングのスペシャリストが語る、クローラー運用の裏側! まとめ #crawler_ops
- ldk2iln3yt201
- 2664
- 12
- 5
- 1
いまどきなSPAのサービスならなんかAPIありそうな気もするががが #crawler_ops
2016-08-21 14:54:32クロウラーのメンテナンスが大変→メンテナンスしやすいつくりにする XPathをガチガチにすると少しの変更で対応作業が発生する。class等を直接していするケースにすれば多少の変更に耐えられたりする。 #crawler_ops #bayside_tech_bridge
2016-08-21 15:08:32@seimiyajun (訂正)これ「デザイン変更に強いつくりにする」についてでした。 #crawler_ops #bayside_tech_bridge
2016-08-21 15:11:45@shida 実際に運用から得られたためになるノウハウだった。参考にしたい #crawler_ops #bayside_tech_bridge
2016-08-21 15:13:10「既存クローラーがスパゲッティ化していて匠の技が必要だった」クローラーは構造上スパゲッティ化しやすいのかもですね。 #crawler_ops #bayside_tech_bridge
2016-08-21 15:26:44「リトライ単位を細かくするのがキモ。サービス側にも負担かけないし、時間もかからなくなる。」 #crawler_ops #bayside_tech_bridge
2016-08-21 15:31:13おかしいのがあるって監視するのすごく重要ですよね。この辺の力伸ばしていきたい #crawler_ops
2016-08-21 15:33:22ニュースパスのクローラー、責務の分担がしっかりされていて、すごい構造化されているな。 #crawler_ops #bayside_tech_bridge
2016-08-21 15:36:07IP偽装しない。むしろクロールしてくださいというサービスであればそれができる。 #crawler_ops #bayside_tech_bridge
2016-08-21 15:38:37.@mosa_siru さんのマイクロサービスのスライド見つけた。 slideshare.net/mosa_siru/ss-6… #crawler_ops #bayside_tech_bridge
2016-08-21 15:49:19サイトコンテンツをクラウドストレージに丸々保存しておくのは、確かにデバッグに便利そう。 #crawler_ops #bayside_tech_bridge
2016-08-21 17:36:22クローラー勉強会に参加してきた。意外とLambdaじゃなくてEC2でやってところが多いらしい Azure の話を振ってみたら、みんな存在は知ってるレベルだった... fb.me/KP2CceVN
2016-08-21 17:56:03#crawler_ops 本日の資料はこちらにあげています ニュースパスのクローラーアーキテクチャとマイクロサービス slideshare.net/mosa_siru/ss-6…
2016-08-21 22:17:38treby's survival blog : #crawler_ops で発表しました lineblog.me/treby/archives… pic.twitter.com/9o0W8wi0Ym
2016-08-21 23:14:22