岡崎市中央図書館向けクローラの件落ち穂拾い

主にこのまとめ作成時点で、blog等にあまりまとめられていない「事実関係」中心に抜粋。枝葉は切り落とす方向で。 ・librahack氏の証言:アクセスの実際と逮捕状況の補足 ・岡崎市中央図書館の証言 ・その他の図書館の証言など ・岡崎サーバの性能&岡崎プログラムの実装検証 続きを読む
16
前へ 1 2 ・・ 8 次へ
Hiromitsu Takagi @HiromitsuTakagi

(5)の続き、解除後、ノートPCの開発環境からの実行に変更。留守の日以外は実行。5月24日まで開発環境からの実行を継続。報道で「4月2日から15日にかけて」とあったのは単に容疑の対象がその期間までだったことによるもの。 #librahack

2010-07-17 23:25:21
Hiromitsu Takagi @HiromitsuTakagi

(補足)毎日新聞の「県警が25日に自宅を家宅捜索した際も自動アクセス中だった」は酷い捏造報道だったが、おそらく容疑事実期間の2日〜15日より後の家宅捜索前日まで1日1回の実行が続いていたことを警察か検察から聞き出した記者がこのように取り違えて書いたものと推察。#librahack

2010-07-17 23:48:12
Hiromitsu Takagi @HiromitsuTakagi

@4416_310 そういう基礎知識のない方々と今話しているわけです。ちなみに、岡崎図書館の当該新着図書ページは、1日1回のバッチ処理で静的ページ化する実装もあり得たでしょう。(新着図書ページのアクセスが多いことを知れば) #librahack

2010-07-18 00:27:36
Hiromitsu Takagi @HiromitsuTakagi

@ceekz 今朝もtweetしましたが、飲み会で耳にした情報では、岡崎市は問い合わせが複数あったことから、回答を用意して真面目に問い合わせに回答する用意があるようです。アクセスログ提出状況についても尋ねてみるとよいでしょう。 #librahack

2010-07-18 00:34:38
Hiromitsu Takagi @HiromitsuTakagi

@suzukimasatomo たとえば次を考えてみます。2001年にある国会議員が事務所のパソコンにウイルスメールを送りつけられたとして「議員に対するサイバーテロだ」と主張しました。しかし、誰も刑事事件にするべき事案だとは思いませんでした。なぜでしょうか。

2010-07-18 00:40:07
Hiromitsu Takagi @HiromitsuTakagi

@4416_310 それはない。警察作成の調書の内容は「結果的にDoS攻撃になってしまいました」であり、「DoS攻撃」の文言は初めから用意されていたとのこと。 #librahack

2010-07-18 00:51:34
Hiromitsu Takagi @HiromitsuTakagi

@4416_310 偽計か電子計算機損壊等かの話は「使用目的に沿うべき動作をさせず、又は使用目的に反する動作をさせて」の解釈が性能低下を含むかについて、含まないのかも(上原説)に対し、当然含む(石井説)でした。単に実績が少ないために適用を躊躇しているだけでは。#librahack

2010-07-18 00:56:05
Hiromitsu Takagi @HiromitsuTakagi

(6)librahackという名前は説明サイトのために作ったのではなく、作ろうとしていたマッシュアップサイトの名前として最初に決めていたもの(ドメインは不起訴後取得)でロゴも作っていた。警察がノートPCからそのロゴ画像を見つけて「やっぱりか?」と思ったらしい。#librahack

2010-07-18 12:19:43
Hiromitsu Takagi @HiromitsuTakagi

(6続き)取り調べで、ここでのhackの意味はライフハックとかオライリー本にある○○hacksの意味でということを説明して納得してもらった。検察でロゴのことを突っ込まれたらちゃんと説明するようにと(その警察官に)言われた。(終盤で?) #librahack

2010-07-18 12:24:14
Hiromitsu Takagi @HiromitsuTakagi

(7)プログラムの動作状況はDBへの追加件数を見て把握していた。新着図書のカテゴリ(10個ある)の最後の方のカテゴリが取れていれば最後まで動いていると判断した程度の確認しかしていなかった。DB自動更新処理までの完成を目指し、継続して動かした。 #librahack

2010-07-18 12:29:23
Hiromitsu Takagi @HiromitsuTakagi

(7続き)DBの画面:3月13日(初回テスト実行)1800件新着、14日(2回目テスト実行)5件新着。レンタルサーバに移して14日から1日ごとに 1750, 14, 2, 30, 43, 106, 100, 5, 7, 83, 60, 156…といったところ。#librahack

2010-07-18 12:34:40
Hiromitsu Takagi @HiromitsuTakagi

(私見)新着件数がこの推移だとまあまあ動いているように見える。 #librahack

2010-07-18 12:36:07
Hiromitsu Takagi @HiromitsuTakagi

(8)3月25日、1件も取れていなかったため調べたところ、起点としていた決め打ちのURL「201.asp」がサイト側で「201x.asp」(xは何かの1文字)に変わっていた。そういうサイト仕様なのだと思い、起点URLを新着図書のトップページへ変更した。 #librahack

2010-07-18 12:39:59
Hiromitsu Takagi @HiromitsuTakagi

(9)3月31日に新着が1件しかなくおかしいと思った。レンタルサーバにプロセスを強制終了され、使用制限された可能性を疑った。レンタルサーバではよくあることで、CPU負荷が高かったり長時間稼働するプロセスを連絡もなく止められることがある。以前にも経験がある。 #librahack

2010-07-18 12:42:11
Hiromitsu Takagi @HiromitsuTakagi

(10)4月2日、レンタルサーバでの実行を諦めてノートPCの開発環境からの実行に変更。自宅または実家のISPからアクセス。DBの新着件数、562,280,10,46,47,3,232,17,8,16,7,31,176,32,13,66,9,33,24,112,#librahack

2010-07-18 12:45:28
Hiromitsu Takagi @HiromitsuTakagi

(10続き)34,31,26,29,22,86,2,145,20,11,10,14,134,34,19,2,5,148,13,57,32,11,123,3(最後は5月24日) #librahack

2010-07-18 12:46:52
Hiromitsu Takagi @HiromitsuTakagi

(私見)この値からすると、まあ、いつも通りに動いているように見える。 #librahack

2010-07-18 12:47:43
Hiromitsu Takagi @HiromitsuTakagi

(11)5月25日強制捜査、このときまでサーバダウンの事実を知らなかった。このときまで図書館、MDIS、警察その他すべてから「やめてほしい」といった意思表示はまったくなかった。 #librahack

2010-07-18 12:49:43
Hiromitsu Takagi @HiromitsuTakagi

(12)(逮捕前)警察署へ向かう車内で、中川氏「何も連絡なしにいきなり強制捜査ですか」「サーバがダウンしているなんて知らなかったです」、警察官「レンタルサーバからのアクセスを図書館がIPアドレスで制限した時点で気づくべきだったね」中川氏「制限なんて… #librahack

2010-07-18 12:52:48
Hiromitsu Takagi @HiromitsuTakagi

(12続き)「制限なんて知りません」「レンタルサーバにプロセスを止められたと思って自分のThinkPadで様子を見ていたんです。さくらはCPU使用率が上がるとすぐプロセスを止めますから。」 #librahack

2010-07-18 12:55:54
Hiromitsu Takagi @HiromitsuTakagi

(12続き)「(あの程度のアクセスで)Webサーバがダウンするのはおかしいで。今までにもいくつかスクレイピングをやっていますし、WebAPIを呼ぶときよりも今回は気を遣ったつもりでしたが。」警「図書館は営利目的の大企業と違って少ない予算で運営されているから… #librahack

2010-07-18 12:59:01
Hiromitsu Takagi @HiromitsuTakagi

(12続き)…からお金をかけられないのでサーバの能力が低い」中川氏「(図書館は)レンタルサーバか何かの共有サーバで運営されているわけではないですよね?」警「そんなことはない。図書館にサーバはある」中川氏「もしかしてプログラムを図書館の人が作ったとか」… #librahack

2010-07-18 13:00:23
Hiromitsu Takagi @HiromitsuTakagi

(12続き)警「いやいや、ちゃんとした業者が作っているよ」中川氏「.oO(おかしいなあ。自分のプログラムにミスがあったのかな?)」 #librahack

2010-07-18 13:01:54
Hiromitsu Takagi @HiromitsuTakagi

(13)シリアルアクセスと時間当りリクエスト数に上限を設ける負荷対策を初めからしていた。一定のウェイト時間を置く方式ではなく、時間当りのリクエスト数に上限を設ける方式にしたのは、Amazon Webサービスを利用するときに作ったプログラムの一部を使用したため。#librahack

2010-07-18 13:04:50
Hiromitsu Takagi @HiromitsuTakagi

(13続き)Amazon Webサービス カスタマー契約 5.1.19には「毎秒1コールを超えず」と制限がある。上限は何度か調整した記憶あり。1秒に1アクセスよりも速く遅くもした。最終的に1秒に1から2リクエストぐらいだったと記憶。 #librahack

2010-07-18 13:07:18
前へ 1 2 ・・ 8 次へ