第25回「東洋学へのコンピュータ利用」研究セミナー(#zinbun #jinbun)

表記セミナーのつぶやきをえいやっとまとめました。 ハッシュタグ #zinbun#jinbun で機械的にかき集めています。漏れや余分なものがあれば、編集可能にしておきますので、適宜修正してください。 セミナーのお知らせページ http://www.kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/2014.html
17
前へ 1 2 ・・ 7 次へ
狩野宏樹 @KAN0U

問題その2、異体字情報に比べて音・義情報に乏しい。問題その3、例示字形オブジェクト同士で異体字関係が定義されていた。 #jinbun

2014-03-14 11:33:54
狩野宏樹 @KAN0U

漢字は古い中国語が書かれていた時代の形態素に対応するものと言えるが、文字を考える時には文字だけで出なく形態素としての振る舞いを考えなければいけない。伝統的な漢字の字典には品詞情報が書かれていない。説明文を読んでやっと解る。 #jinbun

2014-03-14 11:34:40
狩野宏樹 @KAN0U

CHISEは文字をオブジェクトとして扱う試みなので、OOPにおける「インターフェイスと実装の分離」の考えに従えば、インターフェイスとして提供している何かをもう少し意味のある物にしたい #jinbun

2014-03-14 11:36:01
狩野宏樹 @KAN0U

IVSのような字形レベルの区別を行う技術をどう取り込むか。Unicodeが統合漢字で日中韓のいろんな漢字を日本人の直感よりやや粗っぽく統合してしまったことが原因という面も多少ある。分けてほしくない物を分けてしまっている例。部分毎に包摂規準が斉一でない問題があった #jinbun

2014-03-14 11:38:10
狩野宏樹 @KAN0U

うえ、拡張Bで結果的に分け直した結果になったりしたのがIVSに影を落としている。重複符号化とか。 #jinbun

2014-03-14 11:38:45
狩野宏樹 @KAN0U

テキストに関する知識のある物による校訂テキストを作成したとして、どのコードがどの字形に対応するかがわからないと完璧な再現が出来ない、影印本でなければならない。今のコードはちゃんと校訂されたテキストを扱うための整理がされた体系の上に立っているが、 #jinbun

2014-03-14 11:41:22
狩野宏樹 @KAN0U

一方実用的な用途で分けたい人の要望を満足させるために文字を分けると言うことが行われてきた。 #jinbun

2014-03-14 11:42:10
狩野宏樹 @KAN0U

「いつか来た道(?)としてのIVS」問題点①重複符号化。②汎用電子と文字情報基盤の統合により、微妙に違う字形を包摂してIVSを振ったことの問題点。IVSには包摂規準が無いので同一か否かは誰にも分からない。公開レビューのチェックは誰にも全部できなかったと思う。 #jinbun

2014-03-14 11:43:58
狩野宏樹 @KAN0U

理想的にチェックができても、誰かがフィーリングで「これとこれは違う」と言った違うかもしれないものは分けざるをえない。包摂規準を機械的にするしくみが無いので、マッピングのつじつまが合っていれば間違いが見過ごされやすい。 #jinbun

2014-03-14 11:45:32
狩野宏樹 @KAN0U

昨年から参加している「戦国楚簡」共同研究。楚の時代に竹に書かれたテキスト。金文や帛書とも違う古代文字。伝統的な漢文は焼く物を使わないが、2千年も前なのになぜか句読点があったり。 #jinbun

2014-03-14 11:46:51
狩野宏樹 @KAN0U

「草冠の下に楽しい」、現代人の感覚ではこれは「薬」だが実は「楽」。最近はやりの「エアロパーツ仕様」の人名(太→汰とか)漢字の発展史は直線的な物ではない。音の体形も変化していて、現代では違うが当時同じ音(完全には解明されていない)だった文字で宛て字したりしている #jinbun

2014-03-14 11:49:07
狩野宏樹 @KAN0U

こういうのをエンコードする時、字形構造的に一致する現代字と、意味的に対応する言大事が一致しない。これは古代文字の研究では一般的に成り立つことだと思う。でも考えてみると、現代感じでも添うじゃないかという感じがする。 #jinbun

2014-03-14 11:49:53
狩野宏樹 @KAN0U

IVSのようなグリフ登録システムでは、誰かが「違う」という度に文字が増えていく(そうなりかけていく)が、データ処理的にはまずい。字形的な差異に意味が無いということを記さないといけないが、そのためにはテキストとして読めなければならない)→今度は「同じ」の定義が問題に。#jinbun

2014-03-14 11:51:19
狩野宏樹 @KAN0U

文字は文字として読めることだけでは不十分でテキストとして読めることが必要。書体情報もそれ固有の意味がある(明朝体のテキストは「明朝体である」という意味ではなく「本文である」ことのマーカではなかろうか)→組版・グリフ情報のコーパスが必要になる。 #jinbun

2014-03-14 11:53:08
狩野宏樹 @KAN0U

今そういうことを考えて、「形態素層を統合した漢字処理」というのを考えている。異体字情報も、文脈を無視して全部平面上につなげていってしまうととんでもないことになるので、その制約をもたらす文脈情報が必要。文字単位の異体字関係を形態素単位の異体字関係として捉え直す。 #jinbun

2014-03-14 11:54:41
狩野宏樹 @KAN0U

安岡さんたちの共同研究で作っている形態素コーパスを使ってもう一度記述することを考えている。そのための手段としてはLinked Dataという便利な物があるので、CHISEの文字オントロジーにLinked Dataとして形態素情報をくっつけることをやっている。

2014-03-14 11:56:01
狩野宏樹 @KAN0U

CHISE漢字検索で文字情報を得表示させると形態素情報へのリンクが一番下に表示される。例:沐(ゆあみす)という同士オブジェクトがどういうコーパスから出てたか。辿ると、どういうコンテキストから出てきたか解る。 #jinbun

2014-03-14 11:56:53
狩野宏樹 @KAN0U

作り方:文字列オブジェクト、形態素オブジェクト、品詞オブジェクト、見出しオブジェクト、文オブジェクトを作り、それらに一意にURLを割り当てている(異なる解釈は別になる) #jinbun

2014-03-14 11:58:04
狩野宏樹 @KAN0U

もっと時間のかかっている作業「抽象字形粒度の整理規準の導入」←詳しくは予稿の付録に書いてある。フィーリングに加え、汎用電子やAJ1における分け方を勘案して、どういうのがいいか考え中。例示字形オブジェクトに相当した物を、もう少し粗い物に置き換えた。 #jinbun

2014-03-14 11:59:43
狩野宏樹 @KAN0U

Ciniiにおける名寄せの話。誤りと疑わしい物は敢えて分けておく。つなげるのは楽だが、分け直すのはたいへん。直感よりやや細かめに分けているが、まともにやると青天井の道に踏み込んでしまう。 #jinbun

2014-03-14 12:00:44
狩野宏樹 @KAN0U

継承機構の詳細は予稿を参照。#jinbun

2014-03-14 12:01:12
狩野宏樹 @KAN0U

階層が増えると、どの粒度でも完璧な情報を記述するのは大変なので、コンプリートを目指すのは抽象字形レベルだけ、とういうことにした。 #jinbun

2014-03-14 12:02:02
狩野宏樹 @KAN0U

変更点のまとめ:意味に影響しないであろう細かい抽象字形レベルから初め、上下に延ばしていくことにした。この粒度で本当にいいのか(もう少し粗くした方がいいのではないか)を考えている。

2014-03-14 12:04:09
狩野宏樹 @KAN0U

Linked Data の利用による「文字の範囲に留まらない処理」#jinbun

2014-03-14 12:04:45
狩野宏樹 @KAN0U

Q: こういう物にありがちな問題、作り手は記述的なDBを作っているのにユーザは規範的な物と受け取ってしまう問題があるが、これからどうすべきか。A: 粒度のモデルをそのまま使うのではなく、それを変換したら少数の差分を書くだけで自分のほしい物が得られるシステムを目指している。

2014-03-14 12:06:24
前へ 1 2 ・・ 7 次へ