CJK統合漢字拡張Fへの日本からの提案について
げっ! QT @moji_memo: ブログ更新。【CJK統合漢字拡張Fがヤバイ】 http://t.co/irR2981mok
2013-11-06 13:48:14@koikekaisho でも、戸籍統一文字で区別されていても、画数違いの「雌」や「紫」は提案していないんですよ。ということはやはり「別字なら包摂しない」という新原則を導入したってことですよね? ……という話を追記しておきました。 http://t.co/sfmjp8l6Ar
2013-11-06 15:14:21@moji_memo 全く同じ形でも、部首が違い、当然部首外の部品(声符)が違う以上は「Non-cognate characters」として統合の対象から外れるという理屈ではないですかね。机や芸は部首は同じですから。
2013-11-06 15:34:48@koikekaisho 少なくともこれまでは、non-cognateが議論の対象となるのは「字体差を包摂するかどうか」という文脈であって、字体が同じであれば無条件で包摂でしたよね?
2013-11-06 15:43:55@moji_memo そうです。それで康熙字典や諸橋の重複字の洗い出しをやったわけで…。しかしIRG的にはこれはラテンのAとギリシャのAとキリルのAの統合に等しい。積年の怨み…
2013-11-06 15:53:35(まあなんというか、『別字なら統合しない』という原則の導入はさらなるパンドラの箱を開けるような気がするのでやめといた方が良いような気がする。(^_^;;;)
2013-11-06 17:20:42(『別字』の定義が厄介すぎる。『どっかの辞書に別字って書いてあれば別字』とかなら簡単だけど使えない定義だと思う。真面目にやるならば『字義と字音の包摂規準』みたいなのを作って『字体の包摂規準』を拡張できれば良いけど非常に難しそう)
2013-11-06 17:24:38(多分、この辺りを考えて行くと、漢字が指示する形態素の集合みたいなのを考えて、その分離規準を考えるような話になると思うけど、基礎となる形態素コーパスの整備が全然進んでないのに果たして可能なんだろうかと思うし、無論、そのままでは日本語には適用できないので何か考えないとだめだし)
2013-11-06 17:29:38(従来のスキームだと、こういうのは互換漢字ってことになるんだろうと思うが、互換漢字の正規化を避けたいから統合漢字にしたいんだろうしなぁ。今ふと思ったけど、従来の正規化の対象にならない『第2種互換漢字』みたいなのを新たに導入したらどうだろう(ぉぃw)
2013-11-06 17:32:40(まあ、でも、考えてみると、『同形別字』を分けたくなるというのは IVS という枝番方式を導入したことによる当然の帰結という気もする。枝番方式を採った場合、形の差異に基づく情報は枝番で区別するのが自然なので、親字は形とは独立な何かで定義された方が望ましい訳だ。)
2013-11-06 17:37:41(ただ、日本の行政システムとしては(近い将来において(?))文字オントロジーと語彙オントロジーみたいなのを作ることにするみたいなので、必ずしもすべてを文字符号化レイヤーに押し付ける必要があるかは謎な気もする。)
2013-11-06 17:42:13@CHISE_ja 閉じた系で運用するなら互換漢字で構わないのでは。外に出る時は正規化されても問題ない。見た目一緒だから。
2013-11-06 17:51:29@koikekaisho (将来的に)RDF やその他 XML ベースのアーキテクチャーを利用することを想定しているんだと思います。電子政府(行政情報の Open Data 化とか?)のための基盤のことも想定してるはずなので、閉じた系だけ想定する訳にはいかないんだと
2013-11-06 18:15:27@koikekaisho @moji_memo 誰か外国の委員がブチ切れて「こんなの全部互換漢字だバカヤロー」と言って下さることを期待します。符号位置から推測できる部首はともかく、CJK統合漢字よりも後付けの参考情報と読みが違うからノンコグネートだという理屈は通らないと思います。
2013-11-06 20:35:31