翻デジ2014まとめ

10
min2fly @min2fly

“【2014.2.19京都】公開シンポジウム+チュートリアル:翻デジ2014:クラウドソーシングによる近デジ資料のデジタル翻刻 | リブヨ・ブログ” http://t.co/3WBERjmul1 #science #university #エレクトリック #図書館 #本

2014-02-12 17:32:09
もずやま @mozyama

ほお。「翻デジ2014:クラウドソーシングによる近デジ資料のデジタル翻刻」 http://t.co/rf3pm6nfcK  ちょっと話が違うけど、みんなのPCの中にある翻刻文を、たとえ未完成なままでも、どっかに集めておけるといい。翻刻無謬主義には経緯をはらいつつ。

2014-02-18 14:15:46
langstat @langstat

公開シンポジウム+チュートリアル「翻デジ2014:クラウドソーシングによる近デジ資料のデジタル翻刻」(2月19日、京都大学) http://t.co/j8KMrnNWb8 登壇者:永崎研宣、大久保友博、大向一輝。

2014-02-18 15:31:06
大久保ゆう @bsbakery

明日は翻デジ2014ですっ。 - 公開シンポジウム+チュートリアル: 翻デジ2014:クラウドソーシングによる近デジ資料のデジタル翻刻 http://t.co/wXuKTA9IfZ

2014-02-18 17:20:48
togiso @togiso

面白そうだけど行けない。 / “人文情報学研究部門 - 京大人文研共同研究班 - 翻デジ2014シンポジウム” http://t.co/dffEKaCh4z

2014-02-19 09:27:34
Yuta Hashimoto @yuta1984

今から参加してまいります>人文情報学研究部門 - 京大人文研共同研究班 - 翻デジ2014シンポジウム http://t.co/77RLF7LP60

2014-02-19 12:56:52
大向一輝 @i2k

翻デジ2014シンポジウムはじまりました。 http://t.co/tuz992EIxh #翻デジ

2014-02-19 13:32:22
大向一輝 @i2k

#翻デジ は「国立国会図書館近代デジタルライブラリーの資料をデジタル"翻"刻することでネット上の和図書の"デジ"タルテクストを増やしてくための足がかりを作るプロジェクト」。

2014-02-19 13:38:37
大向一輝 @i2k

永崎:欧米の人文科学の研究者から「日本では西洋と違ってテキストではなく画像で情報交換していたのだろう」と好意的に言われた。→ウェブ上のテキスト資料の少なさとマンガ・アニメ・浮世絵の海外進出ぶりが裏目に出ている。 #翻デジ

2014-02-19 13:42:57
大向一輝 @i2k

永崎:Google Booksでは日本語の資料があまり検索できない。近デジでは目次まではテキスト化されているが全文テキストはない。欧米ではクラウドソーシングによるトランスクリプションが着実に広まっている。OCRには限界がありブームは一段落。 #翻デジ

2014-02-19 13:45:51
大向一輝 @i2k

米国国立公文書館のクラウドソーシング翻刻プロジェクト。すごい…。 http://t.co/miAQskafmv #翻デジ

2014-02-19 13:49:09
大向一輝 @i2k

永崎:英語圏では文字の符号化がある程度できていて、OCRもかなりの精度があり、得られたデジタルテクストを構造化するためのルールもできている。日本語圏では符号化→まだ十分でない、OCR→いまいち、構造化ルール→議論の俎上に載ったばかり。もう少しなんとかしたい。 #翻デジ

2014-02-19 13:52:09
大向一輝 @i2k

永崎:やろうとしていること。ラフでもいいからGoogleで日本語資料がもっとたくさんヒットするように、多くの人に少しずつでも文字起こしをしてもらい、近デジの当該ページへのリンクをつける。そのための環境を提供する。他のプロジェクトのためにツールに関する情報提供をする。 #翻デジ

2014-02-19 13:55:19
大向一輝 @i2k

永崎:当面の目標は検索エンジンにヒットする日本語資料を増やす。逐語的か現代仮名遣いに直すかは自由。識別のためのタグをつける。誰もが正確と認めるデジタルテクストの翻刻や、その定義に関する議論、統一的なフォーマットの作成は当面は目標にしない。 #翻デジ

2014-02-19 14:01:04
2SC1815J @2SC1815J

公開シンポジウム「翻デジ2014:クラウドソーシングによる近デジ資料のデジタル翻刻」 http://t.co/W2GVcU8nyb 。残念ながら今日は参加できなかったので、大向さんによる #翻デジ での実況ツイートがありがたい。

2014-02-19 14:03:10
大向一輝 @i2k

永崎:基本的には著作権切れの情報をただ入力するだけなので入力者の権利はない。ただしサイトには貢献者の名前を入れるようにする。サイト自体の権利はCC0になるだろう。基本的には青空文庫と同様のイメージで。 #翻デジ

2014-02-19 14:05:15
岡島昭浩 @okjma

青空文庫の(新仮名からの)原表記化は、国語学国文学方面から望まれるはず。入力者も現れてくれないだろうか。 #翻デジ

2014-02-19 14:07:55
大向一輝 @i2k

永崎:翻刻システムは2系統。マニュアル翻刻はOmeka+Scripto+MediaWiki。もうひとつはOCRとCrowd4Uによる翻刻。Crowd4Uは筑波大学森嶋先生のクラウドソーシングプラットフォーム。 https://t.co/3Ej0RVBDIM #翻デジ

2014-02-19 14:11:56
大向一輝 @i2k

永崎:Omeka+Scriptoで翻刻作業をして、結果をMediaWikiに蓄積する。閲覧者や検索エンジンのクローラはMediaWikiを参照する。MediaWikiにはAPIがあるのでそれを活用してもらう。現状の入力システムが縦書きと相性が悪く再考の余地あり。 #翻デジ

2014-02-19 14:20:23
大向一輝 @i2k

ここからは実際のシステムをみんなで使ってみます。 #翻デジ

2014-02-19 14:21:02
Yuta Hashimoto @yuta1984

#翻デジ システム体験中。翻刻データは MediaWiki に蓄積されていくので、簡単にAPI経由で取得できる模様。近デジブラウザに翻刻データ取り込んで、青空文庫リーダー的な形で表示できたらいいなあ

2014-02-19 15:13:36
Yuta Hashimoto @yuta1984

永崎先生からシステム概略の解説が終わって、NII大向先生からのコメント #翻デジ

2014-02-19 15:15:43
Kiyonori Nagasaki @knagasaki

というわけで大向さんのターン。「大変そうだなあ」という印象だがだからといってそれがどうなるかというと話は別。 #翻デジ

2014-02-19 15:15:50
Kiyonori Nagasaki @knagasaki

CiNiiはアナログなシステム。学会が刊行した紙の本をスキャンして手でメタデータを付与している。業者のオフィスには山のように本が積まれていて細かく分業している。 #翻デジ

2014-02-19 15:17:09
Kiyonori Nagasaki @knagasaki

そんなこんなでCiNiiでは400万件の論文がある。一昨年、OCRをかけて全文検索機能がついた。PDF埋め込みはしなかったが、今度は埋め込みをしている。 #翻デジ

2014-02-19 15:22:16