第25回「東洋学へのコンピュータ利用」研究セミナー(#zinbun #jinbun)

表記セミナーのつぶやきをえいやっとまとめました。 ハッシュタグ #zinbun#jinbun で機械的にかき集めています。漏れや余分なものがあれば、編集可能にしておきますので、適宜修正してください。 セミナーのお知らせページ http://www.kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/2014.html
17
前へ 1 ・・ 6 7
狩野宏樹 @KAN0U

Omekaのデジタル翻刻機能用プラグイン(ジョージメイソン大学開発の物もあるが、MediaWikiと連携してデータはMediaWikiに書き込むようになっている。美術館・博物館の所蔵品にメタ情報をつけるのが大きな用途。基本画像はアップロードする。 #zinbun

2014-03-14 16:39:10
狩野宏樹 @KAN0U

翻刻の場合、手元で画像を置かなくても編集できるようにしたい。 #zinbun

2014-03-14 16:40:55
狩野宏樹 @KAN0U

洋物を日本向けに直す苦労もある。日本でデジタル画像を公開する場合、基本後ろ向き。どうやったらダウンロードされないかとかいうのが前提となってしまう。東寺百合文書は良かった (-by-が引っかかるが) #zinbun

2014-03-14 16:42:06
狩野宏樹 @KAN0U

多言語対応、外部画像参照に対応、NDLのパーマリンクに対応…など6箇所の改良。多言語化は、散々愚痴った。MySQLでは4バイトのUTF-8が使えない。年末の漢情研の山田さんの発表で、どうしても第二水準の文字がうまく扱えない事があると要っていた理由が分かった。#zinbun

2014-03-14 16:43:48
狩野宏樹 @KAN0U

OmekaはMySQLの独自機能に依存していたので、今まで避けて通ってきたが使わざるをえない。世間でよく使われている5.1や5.0ではダメ。5.5以降のバージョンで、utf8mb4という文字コードを指定しなければならない。 #zinbun

2014-03-14 16:46:52
狩野宏樹 @KAN0U

しょうがないので対応する箇所を全部自分でスクリプトを書き換えた。大体いけたが、固定長文字列のカラムがたくさんあって、使える文字数が256→192に減ってしまう。運用上の問題になるかも。 #zinbun

2014-03-14 16:48:55
MORIOKA Tomohiko @CHISE_ja

(これ、第2水準じゃなくて、第2面ないしは第2漢字面 (SIP) のことじゃないでしょうか?)

2014-03-14 16:50:21
狩野宏樹 @KAN0U

「外部画像参照」口で言うのは簡単だが作業は大変だった。泥縄的やりかたで何とか外部画像を検知して翻刻システムを立ち上げるしくみが作れた。一番大変だったのは、国会図書館の研究開発質のサーバで立ち上げさせて頂く時、Firewallがらみで苦労したが、その次ぐらいに時間がかかった

2014-03-14 16:50:46
狩野宏樹 @KAN0U

@CHISE_ja 具体的には「叱」のアレかと思ったんですが、第一水準ですよね…。

2014-03-14 16:52:26
狩野宏樹 @KAN0U

NDLのパーマリンクに対応。いい話。最近始まった物が、本当にずっと使えるの?とおっしゃる先生もいるが、私は「永続的識別子」と標榜しているのを信じている。 #zinbun

2014-03-14 16:52:37
狩野宏樹 @KAN0U

翻刻ページにパーマリンクを入れる事により、NDLサーバからメタデータ、翻デジサーバからメタデータを取ってこられるようにした。電子書籍的な物を作るのにもすごく役立つと思う。 #zinbun

2014-03-14 16:53:29
狩野宏樹 @KAN0U

新機能4: 共通タグを設定(もともとは全然無かった。閉じたグループを想定していた感じ)。飜デジは別々の場所から参加した人がテキストを持ち寄るので、作業方針が分かるようにしないといけない。基本的には緩いタグをデフォルト、厳格な形式は特記できる。 #zinbun

2014-03-14 16:55:04
狩野宏樹 @KAN0U

新字・旧字に関しては、混在、かなづかいも混在、タグも Wikiのみがデフォルト。どちらかに寄せる事もできる。タグも、今メジャーな形式(青空やTEIくらいだが)入れられるようにした。チェックはしてくれない(次の次の次くらいの課題) #zinbun

2014-03-14 16:56:08
狩野宏樹 @KAN0U

各ページをとりまとめるプログラム(Web型と、TEIのBest Practice for Libraryという(図書館の大規模スキャンとか用のサブセット))に対応するデータが自動作成できるようにした。 #zinbun

2014-03-14 16:59:45
狩野宏樹 @KAN0U

近デジの目次データをAPIから取ってきたのをガガッと並べる。本文は殆どプレーンテキスト状態。これもTEIの活用法の一つ。 #zinbun

2014-03-14 17:01:54
狩野宏樹 @KAN0U

Q: 作ったテキストのライセンスは? A: 今はシステム上近デジしか見に行けない。このシステムは基本的にPDなテキストデータしか作れない。元本の著作権が切れているので、翻刻者が権利を主張する事が出来ない。Q: テキスト内の注はどうなっている? A: TEI形式でやって下さい

2014-03-14 17:04:12
狩野宏樹 @KAN0U

元気があれば注をわけて入力してもいいけど、ここのシステムでは翻刻だけするという利用方法でも構わない。 #zinbun

2014-03-14 17:05:02
狩野宏樹 @KAN0U

Q:システムのソースコードは公開されているの? A: 今のところutf8-mb4化したのは開発社に戻している。そこから先の機能は、綺麗に直してから公開したい。 #zinbun

2014-03-14 17:05:57
狩野宏樹 @KAN0U

閉会の挨拶:第25回で初めてこの場所を使ってみたがちょっと寒いとか広すぎるという感じはある。来年は考え中。開催は決定していて、2015年3月20(金)にやれと言われている。 #zinbun

2014-03-14 17:07:47
前へ 1 ・・ 6 7