50年に1度!? IVSをめぐる熱いw討論

JEPAによる「出版物のUnicode化推進セミナー」をきっかけに、IVSについて熱く語り合った記録。思いがけず沢山の人が呼応してくれたので、まとめておきます。 IVSについては「UTS #37 UNICODE IDEOGRAPHIC VARIATION DATABASE」(http://unicode.org/reports/tr37/)、安岡孝一「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」(http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/)、拙稿「包摂された字体を区別できる異体字シーケンス」(http://internet.watch.impress.co.jp/cda/jouyou/2008/09/09/20793.html)あたりをご参照ください。
8
紺野慎一 @dragonsblue

EPUBに限らず、同様の思いを痛切に感じます! RT @ogwata: まあDTPは作字という最終兵器があるけど、EPUBだと作字のメカニズム自体を標準化しようかしまいかという段階だからなあ。符号化文字で表現できるなら万々歳、とくればIVSの出番だと。

2011-01-06 01:18:44
ものかの @monokano

『包摂されてしまった異体字をプレーンテキストで保持しなくてはいけない』という電子出版の要請は、符号化の砂城を足蹴にして突き崩すようなものかも…なんとなくそんな気がする。

2011-01-06 01:57:30
小形克宏 @ogwata

じつはIVSって「符号の並びが違ってもグリフは同一」という状態を許容するアーキテクチャであるわけだけど(グリフを任意に登録するシステムなので)、当初の意図通り、意図せぬ不利益をおこさないことを祈るばかり。

2011-01-06 01:35:52
UTF-8はBOMなしでって言ったよね? @moji_memo

50年に1度しか観測できないと言われているIVS TLを眺めているのだけれど、参加していない。

2011-01-06 01:54:14
小形克宏 @ogwata

まさか! だって除外されてるしww RT @monokano: 【予言】IVSの正規化

2011-01-06 02:01:00
なんでやねんDTP/おぢん @works014

[IVS][文字コード] / IVSは文字コードではない - yanok.net http://htn.to/3hY2pB

2011-01-06 09:39:52
小林龍生 @tlk714

UTCの連中がIRGでIVSを強力に推した論拠の1つが、互換漢字は正規化されるがIVSは正規化されない、という点だった。RT @ogwata: まさか! だって除外されてるしww RT @monokano: 【予言】IVSの正規化

2011-01-06 09:54:20
師茂樹 MORO Shigeki @moroshigeki

「文字コードというものは、文字を一意に符号化するものです」という文字コード観は、いまや素朴すぎるのではないだろうか。RT @works014: [IVS][文字コード] / IVSは文字コードではない - yanok.net http://htn.to/3hY2pB

2011-01-06 10:15:55
manabu kawada @manavic_k

よくわからないのですが、IVSが「どのような不都合をもたらすかはいうまでもない」んですか? RT @moroshigeki: …文字を一意に符号化するもの…という文字コード観は、いまや素朴すぎるのでは… RT @works014: http://htn.to/3hY2pB

2011-01-06 10:30:38
師茂樹 MORO Shigeki @moroshigeki

@manavic_k *見た目*が同じ、もしくは極めて似ている文字に対して、複数の符号化方法があるので、素朴な処理系(例えばテキストエディタのgrep機能みたいなやつ)であれば検索などでひっかからないことがある、みたいなことが起こりうる、ということだと思います。

2011-01-06 10:36:48
manabu kawada @manavic_k

やっぱり検索の話だったのですね。たしかにgrepなんかは僕の頭から抜け落ちてましたが、今どきGoogleはひらがなでも漢字でも検索できるのに、ですね。RT @moroshigeki: 素朴な処理系(例えば……grep機能みたいなやつ)であれば検索などでひっかからないことがある

2011-01-06 10:39:54
ものかの @monokano

@tlk714 @ogwata 昨夜「IVSの正規化」と書いた時に念頭にあったのは「Adobe-Japan系に統一」「汎用電子系に統一」というイメージでした。「同じグリフに複数のVSが混在している不統一な状態を解消する目的で正規化する」という感じです〜

2011-01-06 10:57:36
小林龍生 @tlk714

ぼくは、Unicode Standard Annex #15の"UNICODE NORMALIZATION FORMS"を念頭に置いていました。RT @sasakitoshinao: @ogwata 昨夜「IVSの正規化」と書いた時に念頭にあったのは...

2011-01-06 11:03:57
UTF-8はBOMなしでって言ったよね? @moji_memo

ISO 2022ってのもあるし。 RT @moroshigeki: 「文字コードというものは、文字を一意に符号化するものです」という文字コード観は、いまや素朴すぎるのではないだろうか。

2011-01-06 11:14:43
UTF-8はBOMなしでって言ったよね? @moji_memo

あるあるw RT @monokano: @tlk714 @ogwata 昨夜「IVSの正規化」と書いた時に念頭にあったのは「Adobe-Japan系に統一」「汎用電子系に統一」というイメージでした。

2011-01-06 11:23:50
師茂樹 MORO Shigeki @moroshigeki

IVS/IVDはcharacterに対するglyphic subsetを限定する仕組み、ということであるが、characterとglyphの境界(そんなものがあるかどうかは別にして)のことでもあるので、微妙な部分ではある。

2011-01-06 11:25:07
師茂樹 MORO Shigeki @moroshigeki

IVSをcharacterに対する符号化と解釈することだってできるだろう。見た目が同じだけど典拠が違うcharacterとして。IVDが定義しているのはAdobe-Japan1; CID+13698とかHanyo-Denshi; IA0715などであってglyphではない云々。

2011-01-06 11:31:29
師茂樹 MORO Shigeki @moroshigeki

IVS/IVDについてはより厳密に定義される必要があるのかもしれない。そのへんは先の矢野啓介さんのブログと同意見かもしれない。glyphという用語も人によって抽象度が違うので混乱しているような気がする。

2011-01-06 11:35:03
師茂樹 MORO Shigeki @moroshigeki

CSSとかWebfontはcharacterに対してglyph imageを指定する(Unicode外の)技術であるが、こちらはIVDみたいなのがないため、どんなフォントでも指定でき、フリーダムすぎるのではないか、という問題がある。

2011-01-06 11:37:28
師茂樹 MORO Shigeki @moroshigeki

“IVS is a character, not glyph.”って言いたくなってきた。まあ、glyphをcharacterから分離する時点でいろいろ無理があるんだろうが。

2011-01-06 11:40:39
小形克宏 @ogwata

それは予言というより願望ではw 賛成しますが。RT @monokano: @tlk714 @ogwata 昨夜「IVSの正規化」と書いた時に念頭にあったのは「Adobe-Japan系に統一」「汎用電子系に統一」というイメージでした。「同じグリフに複数のVSが混在している不統一な…

2011-01-06 12:09:23
師茂樹 MORO Shigeki @moroshigeki

@ogwata @monokano @tlk714 Unifyしないための技術の中でUnifyするのは混乱のもとのような気もしますけど、どうなんでしょう。

2011-01-06 12:16:16
小形克宏 @ogwata

@moroshigeki @monokano @tlk714 もともとIVDってAdobe以外の登録を想定していなかったフシがあるように思うのです。複数登録によるグリフの衝突に対し、あまりに無策で。でもその割りにはIRGで「今なら無料で登録セール」をやってるし、大丈夫かいなと。

2011-01-06 12:21:03
Kiyonori Nagasaki @knagasaki

ええっ!?それ、なんですか??kwsk! @ogwata @moroshigeki @monokano @tlk714 IRGで「今なら無料で登録セール」

2011-01-06 12:23:39