CiNiiのOCRはチューニングが大変だった。400万件の論文を何度も試行錯誤するのは大変。 #翻デジ
2014-02-19 15:24:49CiNiiの全論文をOCRで全文検索可能にした時の話。「親鸞」でヒットする論文が見つからないので調べた所、OCRエンジンが「親鶯」と認識してしまったらしい。OCRの精度を高めることも大事だが、OCRにも限度がある。 #翻デジ
2014-02-19 15:25:40OCR用に辞書を作ったり統計的に判定したりするのも大事だろう。機械と人の力を混ぜていくという共同作業の時代に入ってきている。 #翻デジ
2014-02-19 15:27:49著者同定クラウドソーシングは融通が利くようなシステムにしているが、運営側の覚悟も必要。完璧を目指してはできない。 #翻デジ
2014-02-19 15:34:59やってみると意外とひどい事態にはならず、むしろそこそこうまくいっている。人はなぜこういうことに参加するのかと言えば、泣き別れが気になるといった欲求にこたえ、それ以外のことはさせないという風に設計している。 #翻デジ
2014-02-19 15:39:02お金にならなくても人はポイントを気にして動いたりすることもある。Crowd4uにおける同志社対筑波の戦い(?)は面白い。インセンティブの作り方がミソだろう。短期的にも長期的にも。ユーザ体験が重要。 #翻デジ
2014-02-19 15:43:41クラウドソーシングのサービスを立ち上げる場合、金銭的見返りが必要に思われるかもしれないが、yahoo知恵袋を見ても分かるように金銭を介しないインセンティブを与えることは可能 #翻デジ
2014-02-19 15:44:52青空文庫は一人で作業するので大変過ぎると心が折れてしまう。総ルビの底本は全部ルビを入れないと公開できない。ベタうちのテキストを作ってルビをふっていく。ルビはベタうちの2倍くらい(体感)の時間がかかる。 #翻デジ
2014-02-19 15:55:02青空文庫収録作品の7割は新字・新仮名遣いの作品。やはり翻刻しやすい作品が集まってくる。総ルビで旧字書籍の翻刻を行う作業量は非常に大きい。どうにかしてこの作業を分担して共同作業にできないか模索していた #翻デジ
2014-02-19 15:55:26テキストを読みながら打つのは割と楽しいが形式やルビになるとちょっと気持ち的に難しい。作業途中のものをみんなで気がついた時に入れていくようにできれば少し楽になるかもしれない。近デジを底本として共有できるのもメリット。 #翻デジ
2014-02-19 16:00:47その本についてのローカルルールを保存しておく場所は、各ページじゃなくその本のWikiMediaのノートに入れておくことになったりするのがいいのかなぁ #翻デジ
2014-02-19 16:17:20百合文書の実態:巨大組織「東寺」の事務所類の集積。多くは普段使いの紙に墨書。断片情報ばかり(かえって貴重)。基本、読めない。東大資料編纂所と総合資料館で翻刻。資料館は15年翻刻しているがまだ1/6程度。目録と写真帳 #翻デジ
2014-02-19 16:19:54突然近デジブラウザについて話してほしいと振られて慌てふためいた。きちんとお話できずすみませんm(__)m #翻デジ
2014-02-19 16:34:41