第12回図書館総合展フォーラム「名寄せ」の最先端 国内と海外の最新動向-NII研究者リゾルバーとORCIDプロジェクト

第12回図書館総合展フォーラム「名寄せ」の最先端 国内と海外の最新動向-NII研究者リゾルバーとORCIDプロジェクト 場所: 第4会場 日時: 11月26日(金) 10:30~12:00 主催: 国立情報学研究所 続きを読む
1
MAKINO Takashi @makinog3

データベースの品質は100%ではなく、クリーニングは必要。 #nayose

2010-11-26 10:54:53
myrmecoleon @myrmecoleon

名寄せ、データクリーニングはデータベースに付加価値をつける。#lf2010 #nayose

2010-11-26 10:55:01
myrmecoleon @myrmecoleon

名寄せ技術とは: 似ていること と 同じであること を区別すること。似てみえるが違うもの、違ってみえるけど同じものを如何に区別するか。計算機に推論を教え込むか。処理上有効か。#lf2010 #nayose

2010-11-26 10:56:54
大向一輝 @i2k

これは本当にしんどい仕事。でも地味なので軽んじられやすいのと、統計的にさくっとできるだろ的なコメントも多い。 RT @myrmecoleon: 大量データがあってもそのままで利用できるわけでない。データづくり、つまり表記揺れや誤字、名寄せが必要。#lf2010 #nayose

2010-11-26 10:57:01
... .. @32nm

RT @i2k: これは本当にしんどい仕事。でも地味なので軽んじられやすいのと、統計的にさくっとできるだろ的なコメントも多い。 RT @myrmecoleon: 大量データがあってもそのままで利用できるわけでない。データづくり、つまり表記揺れや誤字、名寄せが必要。#lf2010 #nayose

2010-11-26 10:57:25
Masao Takaku @tmasao

#nayose 似ているもの と 同じであるもの の違いを認識する、、、と。この部分は連続変数だから難しい。完全解が得られない前提でどこまでやるか、ひとの判定をどこまでさぼれるか、、、と。

2010-11-26 10:57:57
Yuko Murakami @yukoim

RT @i2k: これは本当にしんどい仕事。でも地味なので軽んじられやすいのと、統計的にさくっとできるだろ的なコメントも多い。 RT @myrmecoleon: 大量データがあってもそのままで利用できるわけでない。データづくり、つまり表記揺れや誤字、名寄せが必要。#lf2010 #nayose

2010-11-26 10:58:34
myrmecoleon @myrmecoleon

名寄せの機械処理と人手と。機械的な判定処理、件数が増えれば膨大な組み合わせ、判定処理と判定コストの最適化。機械では「わからない」ものを抽出して人手で処理、が現在の一般的な仕組み。#lf2010 #nayose

2010-11-26 10:59:17
しねはさん@がんばらない @r_shineha

RT @i2k: これは本当にしんどい仕事。でも地味なので軽んじられやすいのと、統計的にさくっとできるだろ的なコメントも多い。 RT @myrmecoleon: 大量データがあってもそのままで利用できるわけでない。データづくり、つまり表記揺れや誤字、名寄せが必要。#lf2010 #nayose

2010-11-26 10:59:24
myrmecoleon @myrmecoleon

名寄せはコンピュータで負荷軽減、人力で自動化の性能向上。ふむ。#lf2010 #nayose

2010-11-26 11:00:16
myrmecoleon @myrmecoleon

参考例として書誌名寄せの話。i-Lincage。#lf2010 #nayose

2010-11-26 11:01:04
図書館総合展 @LF_News

[5/9] 「名寄せ」の最先端 国内と海外の最新動向 -NII研究者リゾルバーとORCIDプロジェクト 講師:武田英明氏(NII学術コンテンツサービス研究開発センター長)、蔵川圭氏(同センター特任准教授)他 #nayose #LF2010

2010-11-26 11:01:23
myrmecoleon @myrmecoleon

例。著者同定ネットワーク。CiNiiのデータベースとウェブ上の研究者情報をマッチングさせて同姓同名の著者などを同定 #lf2010 #nayose

2010-11-26 11:03:12
myrmecoleon @myrmecoleon

こうしたものを作っての印象。IDを介すことが同定にとって非常に重要。#lf2010 #nayose

2010-11-26 11:03:55
岡本真 原則 #saveMLAK & @LRGjp PRのみに使用 @arg

RT @LF_News: [5/9] 「名寄せ」の最先端 国内と海外の最新動向 -NII研究者リゾルバーとORCIDプロジェクト 講師:武田英明氏(NII学術コンテンツサービス研究開発センター長)、蔵川圭氏(同センター特任准教授)他 #nayose #LF2010

2010-11-26 11:04:20
myrmecoleon @myrmecoleon

すべての研究者にIDを付与すればいいのか? 違う。CINIIのデータベースではユニークなID同士をリンク付けする実装。必要に応じてIDの対応をリフレッシュ。あとで新しい対応が判明することがある。 #lf2010 #nayose

2010-11-26 11:06:47
myrmecoleon @myrmecoleon

なぜリンクづけ? 特定のIDにしないのはなぜか。それぞれのユニークIDを管理する組織がどのようにIDを管理するかの自主性を尊重するため。#lf2010 #nayose

2010-11-26 11:08:08
myrmecoleon @myrmecoleon

本当に唯一無二なのは人であってIDではない。そのようなシステムとして作った。〆 #lf2010 #nayose

2010-11-26 11:08:51
myrmecoleon @myrmecoleon

蔵川先生の研究者リゾルバーの話はじまた。#lf2010 #nayose

2010-11-26 11:09:24
myrmecoleon @myrmecoleon

#lf2010 #nayose オープンリポジトリ。OR2010の紹介。リポジトリは外部のサービスと交わっていくことが求められる。

2010-11-26 11:11:58
myrmecoleon @myrmecoleon

研究に関する情報がウェブ上に出ていくことの変化。Web of DocumentsからWeb of Dataへ。Linking Open Data。独立した文書からリンクづけされネットワークされたデータに(セマンティックweb的な感じかしら? #lf2010 #nayose

2010-11-26 11:14:44
MAKINO Takashi @makinog3

研究者そのものをURIで表現する。 #nayose

2010-11-26 11:15:13
myrmecoleon @myrmecoleon

名前で研究者を探すのに出る問題。同姓同名、旧姓、いたいじ。これまでは著者名典拠ファイル的な手法で対応。#lf2010 #nayose

2010-11-26 11:16:06