*.compute.amazonaws.com、そは何者?

色んなアクセスログを見てるとよく登場するのが、amazonのAWSを使ったクローラからのアクセスを示す "*.compute.amazonaws.com”。 twitterでurlをつぶやくと、そのurlにアクセスしてくる クローラも複数いるようです。 続きを読む
2
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

twitterでurlをつぶやくと、ほぼ直後に複数の*.compute.amazonaws.comのBotがそのurlをクロールしにくる。amazonawsはamazonのAWSを使ったcloudサービス。 

2012-09-09 14:56:17
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

amazon自体が何かをしてるわけでなくて、誰かがAWSを使ってtwitterでつぶやかれたうurlを収集しているということ。正確に言うと収集してるだけでなく、アクセスしている。収集しているだけのbotはもっと多いかもしれない。

2012-09-09 14:57:21
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

そうしたbotがどうやってurlを含んだtweetを見つけてるのかはわからない。twitterの全ツイートを拾えるAPIってあるんだろうか?ないような気がする。たぶん、特定のキーワードで検索してるんじゃないかと思う。

2012-09-09 14:59:05
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

その証拠に、一つのurlにまったく同じIPアドレスの*http://t.co/UHhFp1fnボットが二回アクセスしてくることがある。

2012-09-09 15:00:07
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

あーー、違った。さっきの仮説取り消し。いまurlだけを呟いてみたら、やっぱり5件(うち2件は同一IPアドレス)の*http://t.co/DIp8A5Ypからクロールされた。特定のキーワードで検索しているわけじゃないみたい。

2012-09-09 15:06:03
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

となると可能性は、クローラがtwitterの全tweet(もしくは一部にせよ網羅的に)を取得しているか、それとも私のIDが追跡されてるかだな。ちょっと別アカウントで呟いてみよう。

2012-09-09 15:07:39
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

いま、別ID(0ツイート、0フォロー、0フォロワー)のアカウントからurlだけのつぶやきをしてみたら、3件(2IPアドレス)の*http://t.co/zqylEPmXからのアクセスがあった。

2012-09-09 15:13:15
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

5件と3件の差は気になるけど、少なくとも特定のIDを追ってるわけではなさそうである。ちなみに別アカウントの方はtwitter公式からのツイート(こっちはTweetDeckから)。やっぱりある程度網羅的ないし全tweetをチェックしてるようだ。

2012-09-09 15:14:40
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

twitterのAPIの仕組みはあんまり詳しくないので、どうやってtweetすべて(ないしある程度網羅的に)を拾ってるのかはわからないけど、少なくともAWS使って相当無差別にtweetを収集しているbotが複数あることはわかった。

2012-09-09 15:17:16
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

あ、収集するだけでなくて、そのurlにアクセスするbot、だった。わざわざアクセスする目的はなんだろね?よくわからん。

2012-09-09 15:19:38
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

特定のキーワードを含むtweetを収集するクローラは、それはもう鬼のようにある。なんかつぶやくと反応してくるbotがそうだし、反応せずに黙ってどこかのサーバにデータ集積するbotはもっと多いだろう。ていうか私もそのうち二、三そういうのを作るし。

2012-09-09 15:22:24
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

あー、そうか。普通に考えれば、わざわざアクセスする理由はそのurlが生きているか、有効なurlであるか、のチェックか。無意味な文字列をはじく目的で。

2012-09-09 15:37:55
H.Sakai 🚲UberEats大阪🍔🍱🍜 @FoD5

だとすれば、urlを収集されたくなけれれば、phpか何かで *.amazonaws.comからのアクセスには無効なhttpステータス返すとかの方法はある。面倒だけど。

2012-09-09 15:41:58