Unicode正規化とEPUB文書

3
Yano K. @yanok

EPUBの仕様はNFCで正規化することを要求しているのか。多分文字合成を念頭に置いてそうなったのだろうけど、結果的に「海」と「海」は区別できないと。

2010-05-05 15:15:53
小形克宏 @ogwata

用途を考えれば正規化は仕方ないのではないでしょうか。RT @yanok: EPUBの仕様はNFCで正規化することを要求しているのか。多分文字合成を念頭に置いてそうなったのだろうけど、結果的に「海」と「海」は区別できないと。

2010-05-05 17:16:10
Yano K. @yanok

どういう点ででしょうか? RT: @ogwata: 用途を考えれば正規化は仕方ないのではないでしょうか。RT @yanok: EPUBの仕様はNFCで正規化することを要求しているのか。多分文字合成を念頭に置いてそうなったのだろうけど、結果的に「海」と「海」は区別できないと。

2010-05-05 17:35:45
小形克宏 @ogwata

@yanok Unicode正規化は言語やOSに依存しない、なるべく汎用的な用途に供するための処理ではないかと思います。だとすればEPUBで何らかの正規化を規定するのも仕方ないだろうなあ、というような意図でした。

2010-05-05 17:59:07
小形克宏 @ogwata

@yanok IDN(国際化ドメイン)他、多くのRFCでUnicode正規化(ほとんどはNFC)を規定してますよね。互換漢字はかなり用途を絞らないと、危なくて使えないのが現状ではないでしょうか。とはいえ、人名漢字の一部が互換漢字であるのもまた現実なのですよね…。

2010-05-05 18:11:06
Masayoshi Takahashi @takahashim

@yanok NFCはreading system側の仕様だったっけ?

2010-05-05 18:16:18
Yano K. @yanok

@ogwata 正規化が必要なのは端的に言って文字列比較のためなので、文書フォーマットの規約としては必ずしも必要ではないのではと思いました。それに互換漢字をいつでも正規化してしまう必要があるのかは疑問です。

2010-05-05 18:17:37
Yano K. @yanok

@takahashim OPS仕様の1.3.6に "To aid Reading Systems..." と書いてあります。

2010-05-05 18:21:13
Masayoshi Takahashi @takahashim

@yanok unicodeをuseする主語が不明だよね。publicationがUnicodeを使うのは「may」なわけだし

2010-05-05 18:28:28
小形克宏 @ogwata

@yanok 全くその通りです。ぼくもおかしいと思います。しかし現実にはUAX #15で互換漢字は正準等価に指定され、必ず置き換えられることになってしまいました。またUnicode正規化は文字列の比較以外にも用途が広がりつつあります。悲しいことにそれが現実です。

2010-05-05 18:29:03
小形克宏 @ogwata

@ogwata このあたりのことは数年間に書きました。状況はさらに悪化していると思います。 http://bit.ly/cAj8cv “情報化時代”に追いつけるか?審議が進む「新常用漢字表(仮)」第2部 新常用漢字表と文字コード規格 第7回 Unicode正規化と互換漢字

2010-05-05 18:32:47
Yano K. @yanok

@takahashim あそうか、NFCをuseする主語は文書だとは書いていないのか。

2010-05-05 18:35:53
Yano K. @yanok

よく読むと文書の文字符号化としてNFC正規化しとおけとは書いていないようにも読める。"searching and sorting"のときだけNFCするのでもいいのか?

2010-05-05 18:44:31