CJK統合漢字拡張Fへの日本からの提案について

UTF-8はBOMなしでって言ったよね？ @moji_memo

ブログ更新。【CJK統合漢字拡張Fがヤバイ】 http://t.co/sfmjp8l6Ar

2013-11-06 13:17:11

Ken Lunde 小林剣 @ken_lunde

げっ！ QT @moji_memo: ブログ更新。【CJK統合漢字拡張Fがヤバイ】 http://t.co/irR2981mok

2013-11-06 13:48:14

小熊善之 @0guma

あ～……。関わり合いたくないなぁ……。： CJK統合漢字拡張Fがヤバイ http://t.co/8SSyqKUrjw

2013-11-06 13:50:24

貍人鳥（小池咊夫） @koikekaisho

@moji_memo 高田さん言う所の「行政システムが使用している」文字…

2013-11-06 13:56:44

UTF-8はBOMなしでって言ったよね？ @moji_memo

@koikekaisho でも、戸籍統一文字で区別されていても、画数違いの「雌」や「紫」は提案していないんですよ。ということはやはり「別字なら包摂しない」という新原則を導入したってことですよね？　……という話を追記しておきました。 http://t.co/sfmjp8l6Ar

2013-11-06 15:14:21

貍人鳥（小池咊夫） @koikekaisho

@moji_memo 全く同じ形でも、部首が違い、当然部首外の部品（声符）が違う以上は「Non-cognate characters」として統合の対象から外れるという理屈ではないですかね。机や芸は部首は同じですから。

2013-11-06 15:34:48

UTF-8はBOMなしでって言ったよね？ @moji_memo

@koikekaisho 少なくともこれまでは、non-cognateが議論の対象となるのは「字体差を包摂するかどうか」という文脈であって、字体が同じであれば無条件で包摂でしたよね？

2013-11-06 15:43:55

貍人鳥（小池咊夫） @koikekaisho

@moji_memo そうです。それで康熙字典や諸橋の重複字の洗い出しをやったわけで…。しかしIRG的にはこれはラテンのAとギリシャのAとキリルのAの統合に等しい。積年の怨み…

2013-11-06 15:53:35

MORIOKA Tomohiko @CHISE_ja

（まあなんというか、『別字なら統合しない』という原則の導入はさらなるパンドラの箱を開けるような気がするのでやめといた方が良いような気がする。(^_^;;;）

2013-11-06 17:20:42

MORIOKA Tomohiko @CHISE_ja

（『別字』の定義が厄介すぎる。『どっかの辞書に別字って書いてあれば別字』とかなら簡単だけど使えない定義だと思う。真面目にやるならば『字義と字音の包摂規準』みたいなのを作って『字体の包摂規準』を拡張できれば良いけど非常に難しそう）

2013-11-06 17:24:38

MORIOKA Tomohiko @CHISE_ja

（多分、この辺りを考えて行くと、漢字が指示する形態素の集合みたいなのを考えて、その分離規準を考えるような話になると思うけど、基礎となる形態素コーパスの整備が全然進んでないのに果たして可能なんだろうかと思うし、無論、そのままでは日本語には適用できないので何か考えないとだめだし）

2013-11-06 17:29:38

MORIOKA Tomohiko @CHISE_ja

（従来のスキームだと、こういうのは互換漢字ってことになるんだろうと思うが、互換漢字の正規化を避けたいから統合漢字にしたいんだろうしなぁ。今ふと思ったけど、従来の正規化の対象にならない『第２種互換漢字』みたいなのを新たに導入したらどうだろう(ぉぃw）

2013-11-06 17:32:40

MORIOKA Tomohiko @CHISE_ja

（まあ、でも、考えてみると、『同形別字』を分けたくなるというのは IVS という枝番方式を導入したことによる当然の帰結という気もする。枝番方式を採った場合、形の差異に基づく情報は枝番で区別するのが自然なので、親字は形とは独立な何かで定義された方が望ましい訳だ。）

2013-11-06 17:37:41

MORIOKA Tomohiko @CHISE_ja

（ただ、日本の行政システムとしては（近い将来において(?)）文字オントロジーと語彙オントロジーみたいなのを作ることにするみたいなので、必ずしもすべてを文字符号化レイヤーに押し付ける必要があるかは謎な気もする。）

2013-11-06 17:42:13

貍人鳥（小池咊夫） @koikekaisho

@CHISE_ja 閉じた系で運用するなら互換漢字で構わないのでは。外に出る時は正規化されても問題ない。見た目一緒だから。

2013-11-06 17:51:29

MORIOKA Tomohiko @CHISE_ja

@koikekaisho （将来的に）RDF やその他 XML ベースのアーキテクチャーを利用することを想定しているんだと思います。電子政府（行政情報の Open Data 化とか?）のための基盤のことも想定してるはずなので、閉じた系だけ想定する訳にはいかないんだと

2013-11-06 18:15:27

貍人鳥（小池咊夫） @koikekaisho

@CHISE_ja X0208ですら十全に運用できなかった電子政府がｫｨｫｨヾ(ﾟдﾟ；)

2013-11-06 18:24:33

MORIOKA Tomohiko @CHISE_ja

@koikekaisho 実際運用できるかどうかはあまり気にしてないような気も(^_^;;;

2013-11-06 18:28:41

Yano K. @yanok

@moji_memo うひゃあ、これは絶対通らなそうな気がするんですが…。

2013-11-06 18:20:08

UTF-8はBOMなしでって言ったよね？ @moji_memo

@yanok 通らない気がするんですが、通す気でいますよねー。

2013-11-06 18:26:43

狩野宏樹 @KAN0U

@koikekaisho @moji_memo 誰か外国の委員がブチ切れて「こんなの全部互換漢字だバカヤロー」と言って下さることを期待します。符号位置から推測できる部首はともかく、CJK統合漢字よりも後付けの参考情報と読みが違うからノンコグネートだという理屈は通らないと思います。

2013-11-06 20:35:31

UTF-8はBOMなしでって言ったよね？ @moji_memo

昨日の拡張Fのエントリに安岡さんからコメント。 http://t.co/dpfgPUOpHL

2013-11-07 12:48:30

いま話題のタグ