Code4Lib JAPANカンファレンス2015 2日目 #c4ljp
Google Big Queryによるログ、スクレイピング結果等の分析:Pythonでスキーマ定義を組んでいる。Google Big Queryに各図書館のスクレイピングサーバーのログデータを集約している。 #c4ljp
2015-09-06 10:03:19ログ集約用スキーマ定義:各図書館の情報、該当資料の所蔵情報、貸出状態、処理成功フラグ等。カーリルがスクレイピングしている全国の図書館の5億2千万冊分のデータが入っている。 #c4ljp
2015-09-06 10:05:50多摩ラストワンプロジェクト:2015年1~3月、図書館30館にスクレイピングをかけまくった。具体的にはNDLのOAI-PMHをJSONに変換。当初4ヶ月程度かかった→4週間ぐらいになったらしい。なおNII OpenSearchのJSON変換は1時間程度でできる。 #c4ljp
2015-09-06 10:08:42多摩ラストワンプロジェクトの最大の難航ポイントは、NDLの書誌データをOAI-PMHで取ってくるところ。4ヶ月くらいかかった。最近速くなって4週間くらいになったらしい NIIの書誌データはOpensearch経由で1時間くらいで取れる #c4ljp
2015-09-06 10:09:22解析の結果、日本の最速OPACは長野県白馬村であることが分かっている。ちなみに山中湖村は実質4位。村がむちゃくちゃ強い! #c4ljp
2015-09-06 10:10:43遅ればせながら……吉本さんの発表スライドはこちら→ slides.com/ryuuji_y/deck-… #c4ljp
2015-09-06 10:11:09おまけ「絶歌」所蔵図書館の推移。カーリルに所蔵検索殺到。同書のISBNで所蔵確認した日付から、所蔵最速図書館を検出。最速は横須賀市立中央図書館であった。 #c4ljp
2015-09-06 10:12:57#c4ljp カーリルで村立図書館OPACの応答が早いというのは、所蔵が少ないからなのか、それとも利用者が少ないからなのか…。
2015-09-06 10:14:25個人情報等一切入っていない。あくまでカーリルが各図書館のシステムからスクレイピングしたデータである。皆で「遊べる」。 #c4ljp
2015-09-06 10:15:07日本で最速のOPACは長野県白馬村。山中湖情報創造館は4位。村が強い。 (システム調達の時には仕様書に「白馬村並みに」とか書いたらww) 都道府県立図書館OPACの平均回答時間は17秒。 #c4ljp
2015-09-06 10:16:03会場質疑。 質問:joinなどは使えるのか 吉本さん:サブクエリーが使える。 質問:集計した元データに対して課金されているのか? 吉本さん:そのとおり。 #c4ljp
2015-09-06 10:16:34プレゼンテーション2件目:「ウィキペディアを介してまちと図書館をつなぐ試み『ウィキペディア・タウン』」(小林巌生) #c4ljp
2015-09-06 10:16:55マックのノートをプロジェクトに接続したら表示が上下にずれていた。そこで会場で数人が「リフレッシュレート」とつぶやき、無事に正常接続された。「リフレッシュレート」を覚えておくのは重要なのかも? #c4ljp
2015-09-06 10:19:16wikipedia townとは?英モンマス発祥.観光施策の一種と考えている.世界初のウィキペディアタウン. #c4ljp
2015-09-06 10:20:24#c4ljp データサンプルをwikiにあげておいた。遊べるデータなのでいじってもらえたら。 wiki.code4lib.jp/wiki/C4ljp2015… (「図書館の大規模データ処理に「Google BigQuery」を使ってみよう」(吉本 龍司))
2015-09-06 10:20:41Wikipediaタウンとは?:英国モンマス発祥。ガーディアン紙にWikipediaタウンの記事掲載。モンマスでは街ぐるみで、博物館等文化機関のスタッフ等が関与して、街のあらゆる場所に街のWikipediaページのQRコードを掲示するなどの活動を行った。 #c4ljp
2015-09-06 10:21:01