翻デジ2014まとめ

10
Kiyonori Nagasaki @knagasaki

CiNiiのOCRはチューニングが大変だった。400万件の論文を何度も試行錯誤するのは大変。 #翻デジ

2014-02-19 15:24:49
Yuta Hashimoto @yuta1984

CiNiiの全論文をOCRで全文検索可能にした時の話。「親鸞」でヒットする論文が見つからないので調べた所、OCRエンジンが「親鶯」と認識してしまったらしい。OCRの精度を高めることも大事だが、OCRにも限度がある。 #翻デジ

2014-02-19 15:25:40
Kiyonori Nagasaki @knagasaki

OCR用に辞書を作ったり統計的に判定したりするのも大事だろう。機械と人の力を混ぜていくという共同作業の時代に入ってきている。 #翻デジ

2014-02-19 15:27:49
Kiyonori Nagasaki @knagasaki

CiNiiでの著者情報の同定に関わるクラウドソーシングの話。 #翻デジ

2014-02-19 15:32:00
Kiyonori Nagasaki @knagasaki

著者同定クラウドソーシングは融通が利くようなシステムにしているが、運営側の覚悟も必要。完璧を目指してはできない。 #翻デジ

2014-02-19 15:34:59
Kiyonori Nagasaki @knagasaki

やってみると意外とひどい事態にはならず、むしろそこそこうまくいっている。人はなぜこういうことに参加するのかと言えば、泣き別れが気になるといった欲求にこたえ、それ以外のことはさせないという風に設計している。 #翻デジ

2014-02-19 15:39:02
Kiyonori Nagasaki @knagasaki

できることの自由度をコントロールすることで運営側のコストがあがりすぎないようにする。 #翻デジ

2014-02-19 15:39:37
Kiyonori Nagasaki @knagasaki

お金にならなくても人はポイントを気にして動いたりすることもある。Crowd4uにおける同志社対筑波の戦い(?)は面白い。インセンティブの作り方がミソだろう。短期的にも長期的にも。ユーザ体験が重要。 #翻デジ

2014-02-19 15:43:41
Yuta Hashimoto @yuta1984

クラウドソーシングのサービスを立ち上げる場合、金銭的見返りが必要に思われるかもしれないが、yahoo知恵袋を見ても分かるように金銭を介しないインセンティブを与えることは可能  #翻デジ

2014-02-19 15:44:52
Yuta Hashimoto @yuta1984

大向先生に続いて、青空文庫ボランティアの大久保友博さんからのお話。 #翻デジ

2014-02-19 15:49:26
Kiyonori Nagasaki @knagasaki

青空文庫は一人で作業するので大変過ぎると心が折れてしまう。総ルビの底本は全部ルビを入れないと公開できない。ベタうちのテキストを作ってルビをふっていく。ルビはベタうちの2倍くらい(体感)の時間がかかる。 #翻デジ

2014-02-19 15:55:02
Yuta Hashimoto @yuta1984

青空文庫収録作品の7割は新字・新仮名遣いの作品。やはり翻刻しやすい作品が集まってくる。総ルビで旧字書籍の翻刻を行う作業量は非常に大きい。どうにかしてこの作業を分担して共同作業にできないか模索していた #翻デジ

2014-02-19 15:55:26
Kiyonori Nagasaki @knagasaki

テキストを読みながら打つのは割と楽しいが形式やルビになるとちょっと気持ち的に難しい。作業途中のものをみんなで気がついた時に入れていくようにできれば少し楽になるかもしれない。近デジを底本として共有できるのもメリット。 #翻デジ

2014-02-19 16:00:47
Kiyonori Nagasaki @knagasaki

底本ごとのローカルルールを共有する場が必要。 #翻デジ

2014-02-19 16:03:53
Kiyonori Nagasaki @knagasaki

どこか手近なところをクリックしてマニュアルが出せるとありがたい。 #翻デジ

2014-02-19 16:07:55
張茂 @Zhang_Mao

偉大! 偉大! #翻デジ (注:昼から有給取ってます。

2014-02-19 16:14:00
starasenrivero / @starasenrivero

#翻デジ 連続tweetされている皆様に感謝…

2014-02-19 16:15:04
Yuta Hashimoto @yuta1984

続いて京都府立総合資料館の福島さんから、東寺百合文書についてご報告。 #翻デジ

2014-02-19 16:15:29
張茂 @Zhang_Mao

その本についてのローカルルールを保存しておく場所は、各ページじゃなくその本のWikiMediaのノートに入れておくことになったりするのがいいのかなぁ #翻デジ

2014-02-19 16:17:20
Yuta Hashimoto @yuta1984

百合文書の実態:巨大組織「東寺」の事務所類の集積。多くは普段使いの紙に墨書。断片情報ばかり(かえって貴重)。基本、読めない。東大資料編纂所と総合資料館で翻刻。資料館は15年翻刻しているがまだ1/6程度。目録と写真帳 #翻デジ

2014-02-19 16:19:54
張茂 @Zhang_Mao

偉大「今日配られてるレジュメ。こういうのが千年、二千年残った。百合はそういうもの」なるほど、さすが偉大。わかりやすい。 #翻デジ

2014-02-19 16:21:11
Yuta Hashimoto @yuta1984

突然近デジブラウザについて話してほしいと振られて慌てふためいた。きちんとお話できずすみませんm(__)m #翻デジ

2014-02-19 16:34:41
大向一輝 @i2k

討論を経てシンポジウムは終わり。やはりインセンティブ設計の話になるけどこればっかりは事前には答は出ないなあ。おつかれさまでした! #翻デジ

2014-02-19 16:51:34
starasenrivero / @starasenrivero

皆様、中継tweetありがとうございました。#翻デジ

2014-02-19 17:01:44