正規化・互換漢字・IVS

@works014さんの「異体字/IVSなどなど」 http://togetter.com/li/145839 の続き。先に「IVSと正規化について」 http://togetter.com/li/88888 を読んでおくといいかも。
20
前へ 1 2 ・・ 20 次へ
tomo.(むにゃむにゃ) @MnjaMnia

グリフ ID ならまだ良かったけど、問題はグリフ(字体)レベルの抽象化できてなくて、字形レベルになっちゃってることというか(^_^; RT @kojiishi: そうなのかな。それって共通理解? 字形には依存するけど、Unicodeである以上、グリフIDじゃなくて文字コードだと…

2011-06-10 15:40:29
小形克宏 @ogwata

@MnjaMnia ごめんなさい、規格にはそうしたことは書いてません。「基本」は言い過ぎでした。ただユーザーはフォント(およびアプリ)を意識することでIVSを使うのだと思います。その意味でフォントの存在は基本になるものだろうと思いました。

2011-06-10 15:41:41
Koji Ishii @kojiishi

複数のフォントやIVDで同じ字形が同じコードを持つなら文字コード。フォント指定とセットじゃないと意味を持たなければグリフID。字形の特定とコード割付の問題は別次元 @ogwata ?? UTS#37の考え方は、特定のグリフをidentifyするものではないのではないでしょうか?

2011-06-10 15:45:37
tomo.(むにゃむにゃ) @MnjaMnia

(IVS を必要とするような人・用途にとって)多くの場合、多分、本当に必要だったのは『抽象文字』として過剰に unify してしまった(り、後で disunify された結果、別の場所に入って mapping のねじれが起こってしまった)問題の修正だったような気はする。

2011-06-10 15:47:25
UTF-8はBOMなしでって言ったよね? @moji_memo

InDesignのIVSの扱い(というか、結合文字列に共通なんだけど)なんとかしてほしい。VSがゼロ幅の1文字として個別に選択可能なので、コピー&ペーストとかの操作で、すぐに親字と離れちゃって、油断できない。

2011-06-10 15:48:36
tomo.(むにゃむにゃ) @MnjaMnia

通常、「グリフ」というのは文字の抽象的な形のことで、フォント指定から独立な単位ということに規格の世界ではなってるはずです。RT @kojiishi: 複数のフォントやIVDで同じ字形が同じコードを持つなら文字コード。フォント指定とセットじゃないと意味を持たなければグリフID。…

2011-06-10 15:50:13
Koji Ishii @kojiishi

@MnjaMnia Unicodeでは世界的合意が必要になるので、意見が割れるものを入れられない。でもそれでは数の論理になってしまうので、少数派も救いましょう、というのがIVSであって、「このフォントの37番目の字」という定義ではないと思う

2011-06-10 15:50:55
小形克宏 @ogwata

あ、そういう意味でしたか。了解。その用語は論点が明快になりますね。RT @kojiishi: 複数のフォントやIVDで同じ字形が同じコードを持つなら文字コード。フォント指定とセットじゃないと意味を持たなければグリフID。字形の特定とコード割付の問題は別次元 @ogwata

2011-06-10 15:51:21
Koji Ishii @kojiishi

そういう理解です。「グリフ」はフォントから独立。「グリフID」だとフォントに従属するID…って後者がおかしいですか? @MnjaMnia 通常、「グリフ」というのは文字の抽象的な形のことで、フォント指定から独立な単位ということに規格の世界ではなってるはずです

2011-06-10 15:53:03
tomo.(むにゃむにゃ) @MnjaMnia

フォント依存じゃないのは同感。RT @kojiishi: Unicodeでは世界的合意が必要になるので、意見が割れるものを入れられない。でもそれでは数の論理になってしまうので、少数派も救いましょう、というのがIVSであって、「このフォントの37番目の字」という定義ではないと思う

2011-06-10 15:53:16
tomo.(むにゃむにゃ) @MnjaMnia

後者はおかしいと思います(そいう用例は見ますけどw)。本当は「字形 ID」でしょうね。RT @kojiishi: そういう理解です。「グリフ」はフォントから独立。「グリフID」だとフォントに従属するID…って後者がおかしいですか? @MnjaMnia 通常、「グリフ」というのは…

2011-06-10 15:55:14
Koji Ishii @kojiishi

でも本人も同じと認める文字に別のIVSを振ると、フォント依存のIDになっちゃうんですよ。だから、同じ文字かどうかの判定は任せるけど、同じと思ったらIVSを共有してね、というのがCSSWGのメッセージ @MnjaMnia フォント依存じゃないのは同感

2011-06-10 15:55:37
tomo.(むにゃむにゃ) @MnjaMnia

正確にはセット依存ってことでしょうけど RT @kojiishi: でも本人も同じと認める文字に別のIVSを振ると、フォント依存のIDになっちゃうんですよ。だから、同じ文字かどうかの判定は任せるけど、同じと思ったらIVSを共有してね、というのがCSSWGのメッセージ…

2011-06-10 15:57:00
Koji Ishii @kojiishi

グリフが規格用語で、グリフIDがOpenType用語だからだな。混同しないよう気を付けます @MnjaMnia 後者はおかしいと思います…本当は「字形 ID」でしょうね。RT そういう理解です。「グリフ」はフォントから独立。「グリフID」だとフォントに従属するID

2011-06-10 15:57:39
UTF-8はBOMなしでって言ったよね? @moji_memo

@kojiishi それはフォント依存ではなく、IVDの独立性では? @MnjaMnia

2011-06-10 15:57:53
tomo.(むにゃむにゃ) @MnjaMnia

『文字が同じ』かどうかというのはすごく難しい問題をはらんでて、それを回避するために重複符号化禁止の原則みたいなのをしてた(問題を合意の世界に持ってく)訳だけど、IVS は抽象文字とは違うレイヤーの情報を交換しようというものだから、単一の同一性の基準でってのは原理的に困難かと…

2011-06-10 16:00:18
tomo.(むにゃむにゃ) @MnjaMnia

IVD 毎に固有の同一性の基準を持ちうるということならその通りだと思います。RT @moji_memo: @kojiishi それはフォント依存ではなく、IVDの独立性では? @MnjaMnia

2011-06-10 16:02:08
Koji Ishii @kojiishi

文字統合基準は完全に独立であるべき。それがIVSの本質ですから。でもその独立した基準において同じ文字と判定できる文字に複数の異なるコードを振れば、それはPUAになってしまう @moji_memo それはフォント依存ではなく、IVDの独立性では? @MnjaMnia

2011-06-10 16:02:52
tomo.(むにゃむにゃ) @MnjaMnia

(ちなみに、IVS 自体は IVS が指示する単位が何なのかも、同一性の基準をどこで担保するかも、何も言ってないから、今後の運用で頑張る(れ)って話になるので、今ならまだなんとかなるかも、という一縷の望みでみんな頑張ってる?)

2011-06-10 16:03:59
UTF-8はBOMなしでって言ったよね? @moji_memo

@kojiishi ルーツが同じ文字が複数のIVDに所属するケースであっても、その包摂する範囲が同じであるとは限りませんよね。

2011-06-10 16:07:52
tomo.(むにゃむにゃ) @MnjaMnia

ちなみに、Adobe-Japan1 系 IVD に見られるような 単一 IVD における同一文字に対する複数の IVS 割当は確かに嫌な気持ちにさせられるんだけども、ただ、この手の場所は元の統合漢字の『バグ』の救済という意味もあるので一概には非難できない気もする。

2011-06-10 16:09:03
UTF-8はBOMなしでって言ったよね? @moji_memo

@moji_memo @kojiishi 「ルーツ」って表現はあいまいかな。たとえば出典が同じJIS X 0208のXX区XX点であっても、ということです。

2011-06-10 16:10:10
Koji Ishii @kojiishi

「文字が同じかどうか」の判定基準(統合基準)と、コードの割振は別次元の問題。コードの割振だけ、少しだけシステマティックにしましょう、と。そうでないなら、文字コードたり得ない @MnjaMnia 『文字が同じ』かどうかというのはすごく難しい問題をはらんでて

2011-06-10 16:10:20
tomo.(むにゃむにゃ) @MnjaMnia

この『明らかな IVS の重複』ってのはかなり特殊なケースで、かつ、対処もそんなに難しくない(CID 一緒になるし)。問題は異なる同定・包摂規準を持つセットを混在する場合。

2011-06-10 16:10:53
tomo.(むにゃむにゃ) @MnjaMnia

それは同感なんだけど、それをシステマティックにすると抽象文字の符号化と同じだけの手間がかかるのと、そのための道具立てが整ってないのが問題というか RT @kojiishi: …の問題。コードの割振だけ、少しだけシステマティックにしましょう、と。そうでないなら、文字コードたり得ない

2011-06-10 16:13:30
前へ 1 2 ・・ 20 次へ