50年に1度!? IVSをめぐる熱いw討論

JEPAによる「出版物のUnicode化推進セミナー」をきっかけに、IVSについて熱く語り合った記録。思いがけず沢山の人が呼応してくれたので、まとめておきます。 IVSについては「UTS #37 UNICODE IDEOGRAPHIC VARIATION DATABASE」(http://unicode.org/reports/tr37/)、安岡孝一「漢字1文字が最大8バイト、Unicodeの「IVS」とは?」(http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/)、拙稿「包摂された字体を区別できる異体字シーケンス」(http://internet.watch.impress.co.jp/cda/jouyou/2008/09/09/20793.html)あたりをご参照ください。
8
Kiyonori Nagasaki @knagasaki

@ogwata @moroshigeki ちなみに、今、IVSくっつけて文字列作ると、それに対応した表示をしてくれる環境/フォントってどういう感じになってるんですか?

2011-01-06 12:27:55
師茂樹 MORO Shigeki @moroshigeki

@ogwata @monokano @tlk714 ごく一部の議論しか見ていませんが、確かにUnicodeとCIDとの(何となく共有されている)「レベルの違い」を吸収するための技術としてスタートした、みたいな雰囲気はありましたね。CIDはcharacterじゃないよね、みたいな。

2011-01-06 12:31:07
師茂樹 MORO Shigeki @moroshigeki

@ogwata @monokano @tlk714 ただ、細かいことを言うとglyphの登録ではなくglyphic subsetの登録であり、個々のglyphよりもsetであることの方が重要だ、と言うことはできないですかね。詭弁かもしれませんが。

2011-01-06 12:33:25
UTF-8はBOMなしでって言ったよね? @moji_memo

@moroshigeki @ogwata @monokano @tlk714 意外に同定できちゃうんですよね。わたしは実際に対照テーブルを作りましたけど、Ken Lundeさんとの違いは10文字程度でした。

2011-01-06 12:41:19
小形克宏 @ogwata

IRGメンバーが拡張Dへの提案をやめIVS登録するなら、登録料は無料にしますって話だった記憶が。RT @knagasaki: ええっ!?それ、なんですか??kwsk! @ogwata @moroshigeki @monokano @tlk714 IRGで「今なら無料で登録セール…

2011-01-06 12:41:50
小林龍生 @tlk714

複数のIVDコレクション間でのIVSの共有については、標準化コミュニティ内部でもいろいろな意見があって、いまのところ収束していません。RT @moroshigeki: @ogwata @monokano @tlk714 Unifyしないための技術の中でUnifyするのは混乱の..

2011-01-06 12:44:23
小形克宏 @ogwata

@knagasaki @monokano @moroshigeki @tlk714 つまり、統合漢字に異体字を山盛りで提案するのはやめてほしいと、UTCは思っているわけでしょう。

2011-01-06 12:44:43
小形克宏 @ogwata

今のところ対応フォントは小塚だけ。環境はSnowLeopard、Windows 7以降、かな? RT @knagasaki: @ogwata @moroshigeki ちなみに、今、IVSくっつけて文字列作ると、それに対応した表示をしてくれる環境/フォントってどういう感じに…

2011-01-06 12:46:43
小形克宏 @ogwata

あと、Acrobat 9で入力が可能。RT @knagasaki: @ogwata @moroshigeki ちなみに、今、IVSくっつけて文字列作ると、それに対応した表示をしてくれる環境/フォントってどういう感じになってるんですか?

2011-01-06 12:47:25
ıɥɔıɐʇ ɐʇɐqɐʍɐʞ @kawabata

@ogwata 一応、花園明朝も対応しています。でもIVSで異体字を利用するニーズを持つ登録希望者が、既存の登録済異体字との重複をチェックするのは、過去の登録者が登録時に異体字を分けた意図を明記しない限り不可能だし、意味はないです。

2011-01-06 12:49:01
tomo.(むにゃむにゃ) @MnjaMnia

ISO/JIS と MIME-charset の微妙な定義の差なんてのも RT @moroshigeki: 「文字コードというものは、文字を一意に符号化するものです」という文字コード観は、いまや素朴すぎるのではないだろうか。RT @works014: [IVS][文字…

2011-01-06 12:50:25
小形克宏 @ogwata

そう、「同じ」を定義せよ問題が発生する。RT @kawabata: @ogwata 一応、花園明朝も対応しています。でもIVSで異体字を利用するニーズを持つ登録希望者が、既存の登録済異体字との重複をチェックするのは、過去の登録者が登録時に異体字を分けた意図を明記しない限り不可能…

2011-01-06 12:50:31
ıɥɔıɐʇ ɐʇɐqɐʍɐʞ @kawabata

@ogwata 汎用電子の場合は「デザイン統一基準」がかなり細かく規定されていて、これを適用すればAJ1-6と汎用電子の対応を大体決められます。でもたとえばFT1691が、AJ1-6のCID+13542・CID+4949の両方に対応するように、その対応は1:mになりますが。

2011-01-06 12:51:31
小形克宏 @ogwata

まあ、IVSって外字=頻度が低いを前提としているんだろうなあ。けっこう危うい前提ではあるが。

2011-01-06 12:52:23
ıɥɔıɐʇ ɐʇɐqɐʍɐʞ @kawabata

@ogwata あと、汎用電子は今後IVDに登録される可能性があるグリフがJIS範囲で3,200文字程度、それ以外で38,800グリフ程度はあります。それを視野に入れないと、一致判断は危険。例えばJA7588・JA7588SとCID+6715の関係など。

2011-01-06 12:53:13
小形克宏 @ogwata

それは汎用電子内部の基準であって、IVS全体の基準とは違いますね。そこが問題。RT @kawabata: @ogwata 汎用電子の場合は「デザイン統一基準」がかなり細かく規定されていて、これを適用すればAJ1-6と汎用電子の対応を大体決められます。でもたとえばFT1691が…

2011-01-06 12:53:45
tomo.(むにゃむにゃ) @MnjaMnia

しかし IVS 的なものは文字符号の歴史の中で一度否定されたものであり、Unicode はその反省の元に設計されたのだとミサカは主張します。しかし、Unicode はその設計を何度も変えてきたとミサカは反論します。

2011-01-06 12:55:43
tomo.(むにゃむにゃ) @MnjaMnia

思うに、グリフ・字体とか字形の類はある意味 Unicode によって『抽象文字ではないもの』として事後的に設定されてきた側面があり、一貫的なモデルが整備されてこなかった(そういうのが要るとも理解されてこなかった)のが問題で、だから、要請によってレイヤーの境界は揺り動くというか…

2011-01-06 12:59:29
tomo.(むにゃむにゃ) @MnjaMnia

思うに、グリフ・字体とか字形の類はある意味 Unicode によって『抽象文字ではないもの』として事後的に設定されてきた側面があり、一貫的なモデルが整備されてこなかった(そういうのが要るとも理解されてこなかった)のが問題で、だから、要請によってレイヤーの境界は揺り動くというか…

2011-01-06 12:59:29
UTF-8はBOMなしでって言ったよね? @moji_memo

@ogwata IVS全体の包摂規準がないのが問題ですか? それがないのがIVSでは?

2011-01-06 13:00:26
tomo.(むにゃむにゃ) @MnjaMnia

古典的な文字コード観があるとするならば、(符号化)文字は(符号化)文字の世界に閉じるということかも知れない。動けば良いだけの改修をしたら後で呪われるというソフトウェア的視点が欠けてるというか、ソフトウェア・システムの一種(一部分)という認識が欠けているというか…

2011-01-06 13:02:23
ıɥɔıɐʇ ɐʇɐqɐʍɐʞ @kawabata

@ogwata 本来ならばUTS#37の4章にあるように、登録者は異体字の登録理由を可能な限り明示すべきなんですが、Adobeの場合はそれはTN5078を読むように、また汎用電子の場合は成果報告書を読むように、ということになると理解しています...

2011-01-06 13:02:38
小形克宏 @ogwata

ええ、だからそれを定め得ないからこそ、そこから問題がおこるだろうと。RT @moji_memo: @ogwata IVS全体の包摂規準がないのが問題ですか? それがないのがIVSでは?

2011-01-06 13:03:33
UTF-8はBOMなしでって言ったよね? @moji_memo

@ogwata @knagasaki @moroshigeki フォントでは小塚のPr6NがIVS対応。表示だけなら、MacのテキストエディットでもJedit XでもInDesignでも。

2011-01-06 13:04:48
tomo.(むにゃむにゃ) @MnjaMnia

効用論的には検索の話なんですが、より本質的な問題としては指示とか同一性の問題というか。。RT @manavic_k: やっぱり検索の話だったのですね。たしかにgrepなんかは僕の頭から抜け落ちてましたが、今どきGoogleはひらがなでも漢字でも検索できるのに…

2011-01-06 13:07:27