正規化・互換漢字・IVS
グリフ ID ならまだ良かったけど、問題はグリフ(字体)レベルの抽象化できてなくて、字形レベルになっちゃってることというか(^_^; RT @kojiishi: そうなのかな。それって共通理解? 字形には依存するけど、Unicodeである以上、グリフIDじゃなくて文字コードだと…
2011-06-10 15:40:29@MnjaMnia ごめんなさい、規格にはそうしたことは書いてません。「基本」は言い過ぎでした。ただユーザーはフォント(およびアプリ)を意識することでIVSを使うのだと思います。その意味でフォントの存在は基本になるものだろうと思いました。
2011-06-10 15:41:41複数のフォントやIVDで同じ字形が同じコードを持つなら文字コード。フォント指定とセットじゃないと意味を持たなければグリフID。字形の特定とコード割付の問題は別次元 @ogwata ?? UTS#37の考え方は、特定のグリフをidentifyするものではないのではないでしょうか?
2011-06-10 15:45:37(IVS を必要とするような人・用途にとって)多くの場合、多分、本当に必要だったのは『抽象文字』として過剰に unify してしまった(り、後で disunify された結果、別の場所に入って mapping のねじれが起こってしまった)問題の修正だったような気はする。
2011-06-10 15:47:25InDesignのIVSの扱い(というか、結合文字列に共通なんだけど)なんとかしてほしい。VSがゼロ幅の1文字として個別に選択可能なので、コピー&ペーストとかの操作で、すぐに親字と離れちゃって、油断できない。
2011-06-10 15:48:36通常、「グリフ」というのは文字の抽象的な形のことで、フォント指定から独立な単位ということに規格の世界ではなってるはずです。RT @kojiishi: 複数のフォントやIVDで同じ字形が同じコードを持つなら文字コード。フォント指定とセットじゃないと意味を持たなければグリフID。…
2011-06-10 15:50:13@MnjaMnia Unicodeでは世界的合意が必要になるので、意見が割れるものを入れられない。でもそれでは数の論理になってしまうので、少数派も救いましょう、というのがIVSであって、「このフォントの37番目の字」という定義ではないと思う
2011-06-10 15:50:55あ、そういう意味でしたか。了解。その用語は論点が明快になりますね。RT @kojiishi: 複数のフォントやIVDで同じ字形が同じコードを持つなら文字コード。フォント指定とセットじゃないと意味を持たなければグリフID。字形の特定とコード割付の問題は別次元 @ogwata
2011-06-10 15:51:21そういう理解です。「グリフ」はフォントから独立。「グリフID」だとフォントに従属するID…って後者がおかしいですか? @MnjaMnia 通常、「グリフ」というのは文字の抽象的な形のことで、フォント指定から独立な単位ということに規格の世界ではなってるはずです
2011-06-10 15:53:03フォント依存じゃないのは同感。RT @kojiishi: Unicodeでは世界的合意が必要になるので、意見が割れるものを入れられない。でもそれでは数の論理になってしまうので、少数派も救いましょう、というのがIVSであって、「このフォントの37番目の字」という定義ではないと思う
2011-06-10 15:53:16後者はおかしいと思います(そいう用例は見ますけどw)。本当は「字形 ID」でしょうね。RT @kojiishi: そういう理解です。「グリフ」はフォントから独立。「グリフID」だとフォントに従属するID…って後者がおかしいですか? @MnjaMnia 通常、「グリフ」というのは…
2011-06-10 15:55:14でも本人も同じと認める文字に別のIVSを振ると、フォント依存のIDになっちゃうんですよ。だから、同じ文字かどうかの判定は任せるけど、同じと思ったらIVSを共有してね、というのがCSSWGのメッセージ @MnjaMnia フォント依存じゃないのは同感
2011-06-10 15:55:37正確にはセット依存ってことでしょうけど RT @kojiishi: でも本人も同じと認める文字に別のIVSを振ると、フォント依存のIDになっちゃうんですよ。だから、同じ文字かどうかの判定は任せるけど、同じと思ったらIVSを共有してね、というのがCSSWGのメッセージ…
2011-06-10 15:57:00グリフが規格用語で、グリフIDがOpenType用語だからだな。混同しないよう気を付けます @MnjaMnia 後者はおかしいと思います…本当は「字形 ID」でしょうね。RT そういう理解です。「グリフ」はフォントから独立。「グリフID」だとフォントに従属するID
2011-06-10 15:57:39『文字が同じ』かどうかというのはすごく難しい問題をはらんでて、それを回避するために重複符号化禁止の原則みたいなのをしてた(問題を合意の世界に持ってく)訳だけど、IVS は抽象文字とは違うレイヤーの情報を交換しようというものだから、単一の同一性の基準でってのは原理的に困難かと…
2011-06-10 16:00:18IVD 毎に固有の同一性の基準を持ちうるということならその通りだと思います。RT @moji_memo: @kojiishi それはフォント依存ではなく、IVDの独立性では? @MnjaMnia
2011-06-10 16:02:08文字統合基準は完全に独立であるべき。それがIVSの本質ですから。でもその独立した基準において同じ文字と判定できる文字に複数の異なるコードを振れば、それはPUAになってしまう @moji_memo それはフォント依存ではなく、IVDの独立性では? @MnjaMnia
2011-06-10 16:02:52(ちなみに、IVS 自体は IVS が指示する単位が何なのかも、同一性の基準をどこで担保するかも、何も言ってないから、今後の運用で頑張る(れ)って話になるので、今ならまだなんとかなるかも、という一縷の望みでみんな頑張ってる?)
2011-06-10 16:03:59@kojiishi ルーツが同じ文字が複数のIVDに所属するケースであっても、その包摂する範囲が同じであるとは限りませんよね。
2011-06-10 16:07:52ちなみに、Adobe-Japan1 系 IVD に見られるような 単一 IVD における同一文字に対する複数の IVS 割当は確かに嫌な気持ちにさせられるんだけども、ただ、この手の場所は元の統合漢字の『バグ』の救済という意味もあるので一概には非難できない気もする。
2011-06-10 16:09:03@moji_memo @kojiishi 「ルーツ」って表現はあいまいかな。たとえば出典が同じJIS X 0208のXX区XX点であっても、ということです。
2011-06-10 16:10:10「文字が同じかどうか」の判定基準(統合基準)と、コードの割振は別次元の問題。コードの割振だけ、少しだけシステマティックにしましょう、と。そうでないなら、文字コードたり得ない @MnjaMnia 『文字が同じ』かどうかというのはすごく難しい問題をはらんでて
2011-06-10 16:10:20この『明らかな IVS の重複』ってのはかなり特殊なケースで、かつ、対処もそんなに難しくない(CID 一緒になるし)。問題は異なる同定・包摂規準を持つセットを混在する場合。
2011-06-10 16:10:53それは同感なんだけど、それをシステマティックにすると抽象文字の符号化と同じだけの手間がかかるのと、そのための道具立てが整ってないのが問題というか RT @kojiishi: …の問題。コードの割振だけ、少しだけシステマティックにしましょう、と。そうでないなら、文字コードたり得ない
2011-06-10 16:13:30