第25回「東洋学へのコンピュータ利用」研究セミナー(#zinbun #jinbun)

表記セミナーのつぶやきをえいやっとまとめました。 ハッシュタグ #zinbun#jinbun で機械的にかき集めています。漏れや余分なものがあれば、編集可能にしておきますので、適宜修正してください。 セミナーのお知らせページ http://www.kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/2014.html
17
前へ 1 ・・ 5 6 次へ
狩野宏樹 @KAN0U

資料の記述が今日の話の焦点。その理由は、テキストを適切に処理するためにはそのテキストについての情報(メタデータ)が必要。昔は目録にまとめられていた(それを研究する学問は目録学と呼ばれる)。例えば、目録に複数バージョンが記載されている資料の例をいくつか挙げる。 #zinbun

2014-03-14 15:50:20
狩野宏樹 @KAN0U

景徳傳燈録と呼ばれる禅籍。影印と四部叢刊のバージョンと比較し、その対応を記述して、20年近く使われてきた最も表現力の高い形式で記録したファイル。研究者が生で取り扱うのは難しいので、情報量を絞り込んで表示する必要がある(右に影印、左にテキスト)#zinbun

2014-03-14 15:50:47
狩野宏樹 @KAN0U

両者の対応をどう示すか。テキストのコード化の過程に問題があるので、文字コードだけでなくテキスト中の位置も利用して表示。全部を1個にまとめたファイルではなく、個別のファイルを別々のファイルとして管理し、バージョン管理システムに入れる。#zinbun

2014-03-14 15:53:32
狩野宏樹 @KAN0U

個々の研究者が修正を抱え込んでいるよりは、メインストリームに反映してもらった方が価値が高い。今まで、1資料を扱う限りにおいてはこういう事は考えなくて良かった。 大蔵経や道蔵など、巨大な資料をそのまま電子化する場合。#zinbun

2014-03-14 15:58:33
狩野宏樹 @KAN0U

複数のエディションを扱う場合は、どれか一つを中心に置いてしまうのは望ましくないのでは? という意見もあった。 #zinbun

2014-03-14 15:59:53
狩野宏樹 @KAN0U

漢レポでは敢えて四部分類は使わなかった。仏教の資料は扱いが変化してきていて、隋書経籍志では、四部+道教+仏教の六部構成だったのでそれに従った。資料の数。分類項目ごとの資料数の偏りが少ない方が使いやすい。四部の一つ下のレベルまでをレジュメには挙げている。 #zinbun

2014-03-14 16:02:27
狩野宏樹 @KAN0U

(テキストIDの話(聞き逃しました)IDから分類項目が分かる。XMLよりもう少し解りやすいプレーンテキスト形式を選んだ。進捗。リポジトリの部品はいくつか出来たが全体がまだ。建物の基礎だけ出来た程度。Githubと同じような機能を持ち自由利用可能なシステムを利用。 #zinbun

2014-03-14 16:09:44
狩野宏樹 @KAN0U

まとめ。責任者の解るテキストを、複数の場所にコピーして、作成者・利用者の間でテキスト情報のやり取りができるシステムをつくるにあたっての設計を始めた。早く、使えるような物を作りたいと思っている。 #zinbun

2014-03-14 16:10:41
狩野宏樹 @KAN0U

Q: Githubが維持できなくなったら、みんなのテキストが再構築されるかどうか疑問で気になっている。構想を教えてほしい。 A:難しい問題。保証はできないが、残存可能性を高めるために多くの人にコピーしてもらうという考え。全員が全テキスト必要なわけではないが、全部コピーする人はいる

2014-03-14 16:12:44
狩野宏樹 @KAN0U

単にリポジトリのコピーができるだけなら、分散型である必要はないのでは? CVSにも、リポジトリコピーサービスがあった。分散型だと、リポジトリ全体の同一性が分かりにくくなるんじゃないかと思う。 #zinbun

2014-03-14 16:13:51
狩野宏樹 @KAN0U

分散型の利点があるとすれば、フォークで切るという事。A: 誰に編集の権利があるのかが違う。誰でも編集者となれるハードルの低さ。現時点では問題点のうち半分くらいは未解決。 #zinbun

2014-03-14 16:18:07
狩野宏樹 @KAN0U

最後は、「東洋学のツールとしての翻デジ2014における諸課題」(永崎研宣さん)です。#zinbun

2014-03-14 16:18:58
狩野宏樹 @KAN0U

飜デジ2014」とは、日本デジタルヒューマニティズ学会による、日本語のテキスト化をしようというプロジェクト。今のところ自分一人でスクリプトを書いたり改造したりして、国会図書館にサーバをご提供いただいている。支援を頂けないか相談中。 #zinbun

2014-03-14 16:20:21
狩野宏樹 @KAN0U

近デジのテキストをクラウドソーシングでデジタル翻刻。「正確性」とか言いだすと、「文字とは何か」から始まってスタック刷るとか、Unicodeに文字を入れなきゃという泥沼(現在両足突っ込み中)になる。飜デジ2014は、最初から「正確なテキストは目標としない」と明言。 #zinbun

2014-03-14 16:22:02
狩野宏樹 @KAN0U

こだわりたい人のためにインフラは整備しているが、ちょこちょこ入力したい人も歓迎。正確なテキストは何かという議論をしたり結論を得るのも目標ではない。 #zinbun

2014-03-14 16:23:07
狩野宏樹 @KAN0U

それは関連諸学会で議論して頂くとして、ここは作業の場であるというのが一つのポイント。同様に、統一されたフォーマットによるデジタルテキストの作成にもこだわらない。入力者とコミュニティが好きにやる。そして、コピペしてすぐ使えるデジタルテキストを作る事を目標としない。#zinbun

2014-03-14 16:24:20
狩野宏樹 @KAN0U

「コピペして…」にはいろいろな意味がある。例えばPUAを使った外字とか、改行コードの問題とか。そういうもろもろの事はユーザ任せという所がポイント。 #zinbun

2014-03-14 16:25:16
狩野宏樹 @KAN0U

では何を目指すのか。「クラウドソーシング翻刻のための」→要するに、Googleで近デジのテキストがいっぱい引っかかるようにしたい。今どき、Webに無い物はこの世に無いような顔をする人が多い。それに対する有効な反論方法はあまりないので、Webに上げる。

2014-03-14 16:27:02
狩野宏樹 @KAN0U

クラウドソーシング翻刻の基盤を構築したい。凸版とIBMの共同開発システムがあるが、システムそのものが門外不出で、凸版にお金を払うとそれを使ってやってくれるという状態。英語圏ではいま割と流行りでぽこぽこ立ち上がっている。 今どきUnicodeで大体間に合うはず #zinbun

2014-03-14 16:28:29
狩野宏樹 @KAN0U

あとインターフェイスだけ日本語化すれば何とかなるのではないか。自分で立ち上げなくても、OSS得意な業者さんに50万とか100万の制限でサービスを立ち上げてもらえるようになればいいなと思ってやっている。 #zinbun

2014-03-14 16:29:19
狩野宏樹 @KAN0U

英語圏ならOCRでさくっといけるんじゃないの?と思うが、手書き葉難しいしタイプライターもゴミが多いとうまく拾えないとかあって、ちょこちょこ英米でプロジェクトが立ち上がっている。 #zinbun

2014-03-14 16:29:56
狩野宏樹 @KAN0U

最近Drupal, MediaWiki, Omekaなどをつかっている例が多い。それぞれ得意分野は異なる。Dはブログなどが多い。MWはWikipediaでゆうめいだ。Oはこの分野では新参だが、ジョージメイソン大学のデジタルヒューマニティをやっている人たちが作った。#zinbun

2014-03-14 16:31:50
狩野宏樹 @KAN0U

分野への馴染の深さ、将来の発展性などを考えてOmekaでやることにした。Omekaのページはhttp://t.co/0MxITqxMwu 。プラグインがいろいろ出ている。事件の時空間年表が作れるやつとか。(デモ) #zinbun

2014-03-14 16:35:47
狩野宏樹 @KAN0U

編集画面はこんな感じ。みんなで編集できる。次のサンプルは国内外のデジタルヒューマニティイベントとそのレポートを閲覧できるようにした物。#zinbun

2014-03-14 16:37:35
永瀬唯 @kakansaku

ん?原文に段落はあるの? RT @KAN0U 4冊のうち、テキストの既にある冊1〜2を対象とした。大日本古記録のデータ管理対象は段落。基本は日条で管理するのだが、日によっては何段落にも渡るので段落毎に分ける。全部で1071段落。 #zinbun

2014-03-14 16:38:38
前へ 1 ・・ 5 6 次へ