dellganovさんによる「2010年度三田図書館・情報学会研究大会研究発表 図書館ウェブサイトの公開性-クローラに対するアクセス制御に関する調査-安形輝(亜細亜大学)」を聞いたレポート
#librahack http://bit.ly/aeL0S3 2010年度三田図書館・情報学会研究大会研究発表 図書館ウェブサイトの公開性-クローラに対するアクセス制御に関する調査-安形輝(亜細亜大学)を聞いてきたので報告します。
2010-09-26 01:34:17#librahack 調査日は2010年9月5日。調査対象は2,065館(公共図書館1,277館、大学図書館788館)の図書館のウェブサイト。
2010-09-26 01:34:44#librahack このうち、robots.txtを置いていたウェブサイトは467館(公共図書館205館、大学図書館262館)で全体の22.6%(公共図書館16.1%、大学図書館33.2%)。
2010-09-26 01:35:05#librahack さらにrobots.txtを設置していてもそれが誤っているウェブサイトもあった。まず、robots.txtにREPではなくエラーメッセージ等の書かれたHTMLページを返すものが59件(公共図書館20館、大学図書館39館)あった。
2010-09-26 01:35:54#librahack 次に、文法的な(致命的な)誤りがあるrobots.txtも17館に置かれていた。その代表は岡崎市立図書館である。17館とは別に既に修正されている図書館は5館あった。これらは全て同じ業者によると推測される。
2010-09-26 01:36:33#librahack 他にも些細な誤りや特殊なアクセス制御として、Baiduと国会図書館のクローラだけを拒否している日本文理大学などの例がある。Baiduの排除はけっこうある。Googleは動的なものについてのみ排除するなどがある。
2010-09-26 01:36:46#librahack クローラをすべて排除している図書館は71館(3.5%)ある(公共図書館61館(4.8%)、大学図書館10館(1.3%))。
2010-09-26 01:36:58#librahack クローラ全排除の影響として、Yahoo!Japanの検索では図書館サイトが検索上位に表示されなくなり、Googleは表示されるもののサイトの要約が出力されないなど怪しいサイト風の表示となったものが多かった。
2010-09-26 01:42:15#librahack 質問(私):図書館ウェブサイトのトップページにはrobots.txtが設置されていなくても、別サイトのWebOPACには設置されている例(横浜市、国会図書館など)はカウントされているか。
2010-09-26 01:42:32#librahack 答:サブドメインについては今後の調査になる。現時点では図書館サイトのトップページに設置されているかどうかの調査。
2010-09-26 01:43:02#librahack 質問(私):個人が図書館サイト専用のクローラを作成したときに、robots.txtを守るべきか→答:個人的には非常識なアクセスで負荷を高めないのであれば無視してもよいのでは。
2010-09-26 01:43:20#librahack 質問:robots.txtの記述や設置はどこまで意識的に行われているか。また誰が設置しているのか。→答:誤っているものが全て同一の業者だったことから、図書館は業者に丸投げしているのではないか。(終)
2010-09-26 01:44:19業者まで調べたか。 RT @dellganov: #librahack 質問:答:誤っているものが全て同一の業者だったことから、図書館は業者に丸投げしているのではないか。(終)
2010-09-26 02:11:44@dellganov 日本文理大学ですが試行期間にクロールされ公開を許可していますね。最初が全不許可でないのでそこでクロールされたのかな?
2010-09-26 02:18:39これか http://www.nbu.ac.jp/robots.txt RT @dellganov …Baiduと国会図書館のクローラだけを拒否している日本文理大学などの例… #librahack
2010-09-26 04:04:20それ200だったんですかね。404のを見てたりしてないのかな。@dellganov …設置していてもそれが誤っているウェブサイトもあった。まず、robots.txtにREPではなくエラーメッセージ等の書かれたHTMLページを返すものが59件… #librahack
2010-09-26 04:06:49RT @otsune: バグで性能が出ないシステムを納品しといて「改善するにはバージョンアップが必要です」とウソを付いてゼニを絞りとるってのは、三菱電機インフォメーションシステムズに限らずたいていのソフトウェアベンダーがやってた手口ではあるよな #librahack
2010-09-26 17:04:31【定期告知】ハッシュタグ #librahack のまとめサイトがあります→http://bit.ly/cKp8iN 初めての方は「よくわかる岡崎~事件の流れ」や「よくある質問とその答え」をどうぞ。より深く知りたい方は「岡崎~事件の時系列」や「各種リンク」のリンク先を参照ください。
2010-09-26 18:01:04岡崎の件について「研究者で委縮してしまう人がいるのでは」というのがデジタル・フォレンジック研究会で話題になっていたが、昨日の三田図書館・情報学会で図書館webサイトの公開性を調査していた安形先生が岡崎のニュース聞いてクローラ動かすのためらった、と発言していた #librahack
2010-09-26 18:02:51ニュースを聞いて自分の周囲で影響受けそうな研究者として真っ先に思いついたのが亜細亜大の安形輝先生だったが、ご本人がまさにその件について学会発表を行った、という。さすが
2010-09-26 18:07:45