*.compute.amazonaws.com、そは何者?
twitterでurlをつぶやくと、ほぼ直後に複数の*.compute.amazonaws.comのBotがそのurlをクロールしにくる。amazonawsはamazonのAWSを使ったcloudサービス。
2012-09-09 14:56:17amazon自体が何かをしてるわけでなくて、誰かがAWSを使ってtwitterでつぶやかれたうurlを収集しているということ。正確に言うと収集してるだけでなく、アクセスしている。収集しているだけのbotはもっと多いかもしれない。
2012-09-09 14:57:21そうしたbotがどうやってurlを含んだtweetを見つけてるのかはわからない。twitterの全ツイートを拾えるAPIってあるんだろうか?ないような気がする。たぶん、特定のキーワードで検索してるんじゃないかと思う。
2012-09-09 14:59:05その証拠に、一つのurlにまったく同じIPアドレスの*http://t.co/UHhFp1fnボットが二回アクセスしてくることがある。
2012-09-09 15:00:07あーー、違った。さっきの仮説取り消し。いまurlだけを呟いてみたら、やっぱり5件(うち2件は同一IPアドレス)の*http://t.co/DIp8A5Ypからクロールされた。特定のキーワードで検索しているわけじゃないみたい。
2012-09-09 15:06:03となると可能性は、クローラがtwitterの全tweet(もしくは一部にせよ網羅的に)を取得しているか、それとも私のIDが追跡されてるかだな。ちょっと別アカウントで呟いてみよう。
2012-09-09 15:07:39いま、別ID(0ツイート、0フォロー、0フォロワー)のアカウントからurlだけのつぶやきをしてみたら、3件(2IPアドレス)の*http://t.co/zqylEPmXからのアクセスがあった。
2012-09-09 15:13:155件と3件の差は気になるけど、少なくとも特定のIDを追ってるわけではなさそうである。ちなみに別アカウントの方はtwitter公式からのツイート(こっちはTweetDeckから)。やっぱりある程度網羅的ないし全tweetをチェックしてるようだ。
2012-09-09 15:14:40twitterのAPIの仕組みはあんまり詳しくないので、どうやってtweetすべて(ないしある程度網羅的に)を拾ってるのかはわからないけど、少なくともAWS使って相当無差別にtweetを収集しているbotが複数あることはわかった。
2012-09-09 15:17:16あ、収集するだけでなくて、そのurlにアクセスするbot、だった。わざわざアクセスする目的はなんだろね?よくわからん。
2012-09-09 15:19:38特定のキーワードを含むtweetを収集するクローラは、それはもう鬼のようにある。なんかつぶやくと反応してくるbotがそうだし、反応せずに黙ってどこかのサーバにデータ集積するbotはもっと多いだろう。ていうか私もそのうち二、三そういうのを作るし。
2012-09-09 15:22:24あー、そうか。普通に考えれば、わざわざアクセスする理由はそのurlが生きているか、有効なurlであるか、のチェックか。無意味な文字列をはじく目的で。
2012-09-09 15:37:55だとすれば、urlを収集されたくなけれれば、phpか何かで *.amazonaws.comからのアクセスには無効なhttpステータス返すとかの方法はある。面倒だけど。
2012-09-09 15:41:58