文字コードに関する「愚癡」に端を発する諸々

21

発端

隅須正昭 @nagoya313

戰後漢字の文字コードが凄い決められ方をされたせゐで、國語改革以前のやうな漢字を表示したいだけなのに無駄に勞力がかかるこの斷絶感は凄い。

2016-01-06 23:17:29
Ryusei @mandel59

@nagoya313 「國語改革以前のやうな漢字を表示したいだけなのに無駄に勞力がかかる」のは、“決め方”の問題というより、文字コードという概念自体の根源に関わる問題なのでは?

2016-01-07 21:03:53
Ryusei @mandel59

@nagoya313 「漢字の文字コードが凄い決められ方をされたせゐ」とは、まるで適切な決め方であれば問題が無いみたいではないですか。しかし、如何様に符号化文字集合が決定されたとしても、根源の「文字集合」なる概念自体を再構築しなければ、問題は残ります。

2016-01-07 21:35:15
隅須正昭 @nagoya313

@mandel59 多くの人は今の文字コードでも特に問題を感じてないと思ふのですが、同樣に私の問題も適切な決め方であれば問題を感じなくて濟んだはずです。勿論切り捨てられる文字は出てくるので問題は殘りますが、戰前の正字位は切り捨てられる側であつて欲しくなかつたと云ふ嘆きに近いです。

2016-01-07 23:49:07
Ryusei @mandel59

字形を切り捨てているのは抽象文字という概念であって文字集合の決め方ではないし、字形を切り捨てることを問題視しているのであれば、それは文字集合の決め方ではなくて抽象文字という概念を問題視するべきだということになる。

2016-01-08 00:00:28
隅須正昭 @nagoya313

@mandel59 私の今回の問題を解決する程度であれば符号化文字集合で十分對應できる範圍だと思ひますので、符号化文字集合と云ふ概念自體が問題であるとまではしません。最惡大規模文字セットが使ひたいグリフを總てカバーしてれば文句はない訣ですし。

2016-01-08 00:05:54
Ryusei @mandel59

@nagoya313 「使ひたいグリフを總てカバー」などしたら、それは抽象文字を符号化しているのではなく、個別のグリフを符号化しているということになりますよ。抽象文字という概念は、グリフの包摂という操作を必然的に伴います。

2016-01-08 00:09:35
Ryusei @mandel59

@nagoya313 つまり、「使ひたいグリフを總てカバー」すること自体が、すでに「符号化文字集合」の否定なのです。

2016-01-08 00:12:13
Ryusei @mandel59

@nagoya313 まあ、単に私の言葉ではグリフ集合を文字集合と別扱いにしているという話なので、そこで食い違っているんだと思います

2016-01-08 00:13:43

文字・グリフの同定の話

Ryusei @mandel59

俗に「文字コード」と言うのだけれども、素朴な文字という概念は、専門的には字形と抽象文字が分離されている。

2016-01-08 00:04:22
Ryusei @mandel59

でも「グリフ集合」なんてものを考えてみたところで、問題は解決していない

2016-01-08 00:15:10
Ryusei @mandel59

グリフを、さらに抽象字形と個別字形に分けなければいけないのだったら、何のためにグリフ集合を規定するのかが分からなくなってしまう。

2016-01-08 00:16:14
Ryusei @mandel59

「抽象文字」「抽象字形」「個別字形」という三階建てになるのは、何かがおかしい。

2016-01-08 00:17:17
Ryusei @mandel59

漢字については、文字だけを標準化して字形は自由というわけには行かず、字形も標準化しなければならない特別な事情があるから、話がややこしいのではないのか

2016-01-08 00:19:03
Ryusei @mandel59

なぜ字形さえ標準化しなければいけないのかというと、漢字は他の多くの文字体系と異なり、“開集合”だからだ。

2016-01-08 00:20:21
Ryusei @mandel59

まあアルファベットも付加記号によって拡張されることはあるのだけれども、それは体系単位で拡張されるから、体系の中では文字集合は閉じている。しかし、漢字の場合はアドホックに文字を追加することを許容する開いた体系であり、このような体系では文字の同一性が担保できない。

2016-01-08 00:23:04
Ryusei @mandel59

漢字体系は“開いている”から、漢字に付加された点が意味を持つかどうかを決定できない。あらゆる差異に、後から意味を付加される可能性がある。

2016-01-08 00:25:16
Ryusei @mandel59

しかし、実際には、漢字は実用的な文字体系であり、同一性が担保され、使えている。本当は、漢字体系は開いてなどいないからだ。

2016-01-08 00:27:44
Ryusei @mandel59

漢字の字形差には「意味を持ちうる差異」と「意味を持ち得ない差異」が存在し、「意味を持ちうる差異」は有限の集合によって記述できる。だから、字の同定もできる。

2016-01-08 00:30:34
Ryusei @mandel59

そうすると、本当に符号化の対象とするべきだったのは、「文字」ではなく「意味を持ちうる差異」つまり〈記号〉なのであり、漢字符号化を混沌に導いているのは一字一符号化主義だと言える。

2016-01-08 00:33:10
Ryusei @mandel59

なんか、旧字体の字形の話からそれていっているんだけど

2016-01-08 00:36:19
Ryusei @mandel59

字・字体・字形 の三分類は破綻しているというか、良くないよねって今更言う

2016-01-08 00:36:59
1 ・・ 6 次へ