第12回図書館総合展フォーラム「名寄せ」の最先端 国内と海外の最新動向-NII研究者リゾルバーとORCIDプロジェクト
名寄せ技術とは: 似ていること と 同じであること を区別すること。似てみえるが違うもの、違ってみえるけど同じものを如何に区別するか。計算機に推論を教え込むか。処理上有効か。#lf2010 #nayose
2010-11-26 10:56:54これは本当にしんどい仕事。でも地味なので軽んじられやすいのと、統計的にさくっとできるだろ的なコメントも多い。 RT @myrmecoleon: 大量データがあってもそのままで利用できるわけでない。データづくり、つまり表記揺れや誤字、名寄せが必要。#lf2010 #nayose
2010-11-26 10:57:01RT @i2k: これは本当にしんどい仕事。でも地味なので軽んじられやすいのと、統計的にさくっとできるだろ的なコメントも多い。 RT @myrmecoleon: 大量データがあってもそのままで利用できるわけでない。データづくり、つまり表記揺れや誤字、名寄せが必要。#lf2010 #nayose
2010-11-26 10:57:25#nayose 似ているもの と 同じであるもの の違いを認識する、、、と。この部分は連続変数だから難しい。完全解が得られない前提でどこまでやるか、ひとの判定をどこまでさぼれるか、、、と。
2010-11-26 10:57:57RT @i2k: これは本当にしんどい仕事。でも地味なので軽んじられやすいのと、統計的にさくっとできるだろ的なコメントも多い。 RT @myrmecoleon: 大量データがあってもそのままで利用できるわけでない。データづくり、つまり表記揺れや誤字、名寄せが必要。#lf2010 #nayose
2010-11-26 10:58:34名寄せの機械処理と人手と。機械的な判定処理、件数が増えれば膨大な組み合わせ、判定処理と判定コストの最適化。機械では「わからない」ものを抽出して人手で処理、が現在の一般的な仕組み。#lf2010 #nayose
2010-11-26 10:59:17RT @i2k: これは本当にしんどい仕事。でも地味なので軽んじられやすいのと、統計的にさくっとできるだろ的なコメントも多い。 RT @myrmecoleon: 大量データがあってもそのままで利用できるわけでない。データづくり、つまり表記揺れや誤字、名寄せが必要。#lf2010 #nayose
2010-11-26 10:59:24[4/9] 10:30-12:00 「名寄せ」の最先端 http://www.ustream.tv/channel/videoplanning #nayose #LF2010
2010-11-26 11:01:17[5/9] 「名寄せ」の最先端 国内と海外の最新動向 -NII研究者リゾルバーとORCIDプロジェクト 講師:武田英明氏(NII学術コンテンツサービス研究開発センター長)、蔵川圭氏(同センター特任准教授)他 #nayose #LF2010
2010-11-26 11:01:23例。著者同定ネットワーク。CiNiiのデータベースとウェブ上の研究者情報をマッチングさせて同姓同名の著者などを同定 #lf2010 #nayose
2010-11-26 11:03:12RT @LF_News: [5/9] 「名寄せ」の最先端 国内と海外の最新動向 -NII研究者リゾルバーとORCIDプロジェクト 講師:武田英明氏(NII学術コンテンツサービス研究開発センター長)、蔵川圭氏(同センター特任准教授)他 #nayose #LF2010
2010-11-26 11:04:20すべての研究者にIDを付与すればいいのか? 違う。CINIIのデータベースではユニークなID同士をリンク付けする実装。必要に応じてIDの対応をリフレッシュ。あとで新しい対応が判明することがある。 #lf2010 #nayose
2010-11-26 11:06:47なぜリンクづけ? 特定のIDにしないのはなぜか。それぞれのユニークIDを管理する組織がどのようにIDを管理するかの自主性を尊重するため。#lf2010 #nayose
2010-11-26 11:08:08本当に唯一無二なのは人であってIDではない。そのようなシステムとして作った。〆 #lf2010 #nayose
2010-11-26 11:08:51#lf2010 #nayose オープンリポジトリ。OR2010の紹介。リポジトリは外部のサービスと交わっていくことが求められる。
2010-11-26 11:11:58研究に関する情報がウェブ上に出ていくことの変化。Web of DocumentsからWeb of Dataへ。Linking Open Data。独立した文書からリンクづけされネットワークされたデータに(セマンティックweb的な感じかしら? #lf2010 #nayose
2010-11-26 11:14:44名前で研究者を探すのに出る問題。同姓同名、旧姓、いたいじ。これまでは著者名典拠ファイル的な手法で対応。#lf2010 #nayose
2010-11-26 11:16:06