2011年9月16日

2011/09/16 LODACミーティング議事録

・じんもんこん申込内容について報告 ・スクレイピングデータの追加方法について ・RDFの管理,更新方法について ・CRMの話 ・生物多様性のLOD化の目標設定
0
Fuyuko Ito Matsumura @wintermelon

#lodac の議事録、自分がしゃべってたら書くのわすれてた。

2011-09-16 13:13:17
Fumihiro Kato @fumi1

#lodac SMWは1.16からSPARQL Endpointを公式にサポートしている(現状はbackendが4storeだけ)のでそれを試したい

2011-09-16 13:14:46
Fumihiro Kato @fumi1

#lodac backendはvirtuosoなども今後使えるようにするらしい

2011-09-16 13:15:40
Fumihiro Kato @fumi1

#lodac 訂正: SMW1.16じゃなくてSMW1.6.xだった

2011-09-16 13:19:33
Fumihiro Kato @fumi1

#lodac じんもんこん締切お疲れ様話

2011-09-16 13:20:36
KAMURA @kamura_t

お世話になりました #lodac じんもんこん締切お疲れ様話

2011-09-16 13:21:19
Fuyuko Ito Matsumura @wintermelon

スクレイピングしてきた博物館のデータを追加する方法についての説明 by @fumi1 #lodac

2011-09-16 13:28:19
Fuyuko Ito Matsumura @wintermelon

まずはLODACのシステム構成について #lodac

2011-09-16 13:28:31
Fuyuko Ito Matsumura @wintermelon

スクレイピングしてきたデータをRDFにしてそれをOWLIMにいれている。スクレイピング後データとRDFはそれぞれBazaarでバージョン管理されている。 #lodac

2011-09-16 13:29:20
Fuyuko Ito Matsumura @wintermelon

実はRDFをどうバージョン管理しているのかいままで知らなかったです(恥) #lodac

2011-09-16 13:29:45
Fuyuko Ito Matsumura @wintermelon

RDFはテキストなのでそのdiffを見るのはつらい。グラフのdiffを見たい。 #lodac

2011-09-16 13:30:13
Fuyuko Ito Matsumura @wintermelon

RDFのバージョン管理、というだけでもネタとしてはおもしろい。 #lodac

2011-09-16 13:30:36
so @synobu

RT @wintermelon: RDFのバージョン管理、というだけでもネタとしてはおもしろい。 #lodac

2011-09-16 13:30:55
Fuyuko Ito Matsumura @wintermelon

現状のスクレイピングデータの追加方法。博物館サイトからNutchでクローリング&スクレイピングして、Solrに格納。SolrからJSONで出力されてRDFに変換し、OWLIMに追加。 #lodac

2011-09-16 13:32:11
Fuyuko Ito Matsumura @wintermelon

今回はJSONファイルがすでにあるので、その中の項目名(作品名や制作年など)がどのプロパティ(rdfs:labelなど)に当たるのかマッピングを@kamura_tに書いてもらい、そのマッピングからRDFを生成するスクリプトを@fumi1が作ることになった。 #lodac

2011-09-16 13:34:42
Fuyuko Ito Matsumura @wintermelon

現在はSolr→JSON→RDFだが、ゆくゆくはSolr→RDFとしたい。 #lodac

2011-09-16 13:38:59
Fuyuko Ito Matsumura @wintermelon

Solrにはスクレイピングデータがkey(項目名), value(値)の組として入っている #lodac

2011-09-16 13:40:11
Fuyuko Ito Matsumura @wintermelon

図書館データより美術館データの方がむずかしい? (カーリルよりむずかしい?)by @kitamotoasanobu 先生 #lodac

2011-09-16 13:42:20
KAMURA @kamura_t

明確に属性が決まっていないですからねぇ… RT @wintermelon: 図書館データより美術館データの方がむずかしい? (カーリルよりむずかしい?)by @kitamotoasanobu 先生 #lodac

2011-09-16 13:44:15
Fuyuko Ito Matsumura @wintermelon

カーリルではOPACを使っているし、メタデータのこともAmazonなどを参照していて気にしなくてよい。美術館はそもそもそういうどんな作品でも参照できるような統一されたメタデータがない。 #lodac

2011-09-16 13:44:29
Soichi Ogishima @ogishima

RT @wintermelon: スクレイピングしてきたデータをRDFにしてそれをOWLIMにいれている。スクレイピング後データとRDFはそれぞれBazaarでバージョン管理されている。 #lodac

2011-09-16 13:46:05
Fuyuko Ito Matsumura @wintermelon

今後はスクレイピングしたHTMLと、Solrから出力したRDFを対応づけてバージョン管理するとよいのではという話に。 #lodac

2011-09-16 13:50:21
Fuyuko Ito Matsumura @wintermelon

実はBritish Museumで使っているcrmのプロパティ表記とLODACで使っているcrmの表記と違うのです… #lodac

2011-09-16 13:57:29
KAMURA @kamura_t

@wintermelon そうなのです.cidoc-crmドメインで公式に公開を始めたものとpurl.orgにあるものは後者はふるいという

2011-09-16 14:00:01
残りを読む(21)

コメント

コメントがまだありません。感想を最初に伝えてみませんか?