Unicodeがこの10年で普及して…

漢字の話とアラビア文字/インド系文字の話が混在してすみません。 現在Unicodeは実用されている文字をほとんど符号化して、新規の追加文字は昔の文字が大きな比重を占めています。複雑な用字系の表示環境も整って特殊絵文字で皆遊んでいる。しかし10年ほど前には全然状況は違っていたわけで……。
41
tomo.(むにゃむにゃ) @MnjaMnia

((そういう訳で、某戦国楚簡を読む研究班で「この品詞はなんですか?」(「これは動詞ですか?」とか)という質問ばかりしてるやつ。(^_^; とにかく、まずコーパスだよね。))

2012-12-27 20:30:25
tomo.(むにゃむにゃ) @MnjaMnia

(『IDS の再発見』は「ウィッテルンさんや守岡さんのご尽力」というべきだと思うのだが…(ちなみに、これは未踏の成果物です))

2012-12-27 20:34:11
tomo.(むにゃむにゃ) @MnjaMnia

(私の知ってる先秦時代の専門家の某先生にしても、仏教学系の人にしても、人文学の(本当の)専門家ってハッカーだらけなので(多かれ少なかれ研究のために工夫してきた)、人文学の専門家がコンピューターに詳しくない的な話ってあんまりピンとこなかったりしてw)

2012-12-27 20:39:51
狩野宏樹 @KAN0U

@tsaka1 タイ文字も「読む(発音する)順」であってくれれば…。安易に「表示する順」にしてしまった(TIS-620制定の時点ではタイプライターばりに手で改行を入れることを想定していた)ばかりに、自然言語処理ばかりか組版でも困るはめに。 http://t.co/8gPbmLF5

2012-12-27 20:39:58
tomo.(むにゃむにゃ) @MnjaMnia

(まあ、でも、それは特殊な例かな?やっぱw)

2012-12-27 20:40:25
tomo.(むにゃむにゃ) @MnjaMnia

((ただ、こういう古くからコンピューター使って人文学してた人たちって、なぜか自分のやってることを「人文情報学」とか DH だとは思ってなかったりするんだよなぁw))

2012-12-27 20:42:44
tomo.(むにゃむにゃ) @MnjaMnia

(思うに、伝統的な「文字符号化」という分野がそもそも情報科学的でなかったってのはあるのかもなぁ。もちろん、標準化という営みにはそれ特有の問題はある訳だけど、背景になる体系的な学知は必要なんじゃ?って話だという気もする(ただ、これは結構難しいのかも))

2012-12-27 20:46:55
tomo.(むにゃむにゃ) @MnjaMnia

(先々週の研究班にで、思い切って、『この「し」ってなんですか?』と質問した結果、これが『テキスト終端記号』ということを知ったのだが、つまり楚簡では「、」だけでなくて EOF (!?)まであるということなんだけど、これって現代の書記系には直接対応するものがないような気がする)

2012-12-27 22:10:09
tomo.(むにゃむにゃ) @MnjaMnia

(文字の同値性(包摂範囲)が食い違ってるので別スクリプトにした方が良いというロジックに基づくと、「机」に見られるように、現代中国語における漢字と現代日本語における漢字も食い違ってるから別スクリプトだって話になっちゃうような気が(実際、その方が良かったかもだけどw))

2012-12-27 22:22:28
tomo.(むにゃむにゃ) @MnjaMnia

(規模の差はあるものの、この手の話はラテン文字にもあるので、少なくとも UCS における符号化って観点ではあんまり筋の良いロジックではない気がする。)

2012-12-27 22:24:05
tomo.(むにゃむにゃ) @MnjaMnia

(東洋学の場合、『古漢字』って、『読める文字』は隷定されちゃって、元の字形で使われる場合って基本『読めない文字』(学術上の議論がある文字)なので、符号化しづらいというジレンマがある。対応する現代字がない部品は符号化する価値があると思うんだけども)

2012-12-27 22:27:59
tomo.(むにゃむにゃ) @MnjaMnia

(そういう意味では、既に統合漢字に『古漢字』はがんがん入ってきてるともいえる。これが良いことなのかは微妙だけど、既にネット上の読書会 (cf. http://t.co/Rhjwogez ) 等で使われてたりする。)

2012-12-27 22:31:10
小形克宏 @ogwata

あ、そうでしたか、それは失礼いたしました。RT @MnjaMnia: (『IDS の再発見』は「ウィッテルンさんや守岡さんのご尽力」というべきだと思うのだが…(ちなみに、これは未踏の成果物です))

2012-12-27 22:32:08
Tetsuo Sakaguchi @tsaka1

@KAN0U ああ、20世紀にTIS620コードのWebページの表示を実装したときはタイの方と相談しながらでしたが、厳密な改行位置判定とかは難しすぎるので、簡易的なものまでしかやりませんでしたねぇ。。(先ほどの「読む順」は厳密ではなくてともかくその場の説明のためでしたので。。)

2012-12-27 22:32:31
tomo.(むにゃむにゃ) @MnjaMnia

(そうした『古漢字』を表現するために使われる文字の中には、朝鮮漢字やチュノム用に入った文字を再利用したものも結構あったりして、ちょっと気持ち悪い気もするけど、今の漢字の符号化が『形』ベースだから仕方がないのかも。また、別スクリプトとして入れても多分使われない気が(不便だから))

2012-12-27 22:34:04
tomo.(むにゃむにゃ) @MnjaMnia

(先秦時代の漢字に登場する EOF は、想像するに、ひとつのメディアに複数のテキストを書いてたから必要になったんだろうと思われるけど、紙の時代に入ると文字を大きくする技が使えるので、組版によって解決するようになったんだろうか?)

2012-12-27 22:39:14
tomo.(むにゃむにゃ) @MnjaMnia

(どういう時に繰り返し記号を使うのかってすごく気になるんだけど、良く判ってないらしい。ただ、どうもリエゾンとか発音上の要素が関係してたんじゃないかという説がそれっぽい感じだけど、こういうことを考えても、漢字ってやっぱ表音文字としての視点が重要だなと思う。)

2012-12-27 22:42:16
小林龍生 @tlk714

普遍的な大問題だね。http://t.co/VOmlBChf RT @ogwata: つまり、符号化の専門家のビジョンは、文字の専門家にとって非常に分かりづらい。だけど、そこが分からないと符号化の必要性も伝わらない。伝わらなければ専門家の援助は得られず、当然符号化もできない。..

2012-12-28 06:41:44
Kiyonori Nagasaki @knagasaki

まあ、その結果としての今があり、それが将来好転するかしないかは今の我々にかかっているわけですが @MnjaMnia ((ただ、こういう古くからコンピューター使って人文学してた人たちって、なぜか自分のやってることを「人文情報学」とか DH だとは思ってなかったりするんだよなぁw))

2012-12-28 11:05:49
Kiyonori Nagasaki @knagasaki

そもそも「好転」ってなに?というところからして難しいわけですが。 @MnjaMnia

2012-12-28 11:08:08
Kiyonori Nagasaki @knagasaki

専門家集団を形成するという意識を持つべきかどうかというか…そこからして議論があり得るし、すべきでないという立場も理解できるので難しいところなのです… @MnjaMnia

2012-12-28 11:10:44