2011年1月6日

50年に1度!? IVSをめぐる熱いw討論

JEPAによる「出版物のUnicode化推進セミナー」をきっかけに、IVSについて熱く語り合った記録。思いがけず沢山の人が呼応してくれたので、まとめておきます。 IVSについては「UTS #37 UNICODE IDEOGRAPHIC VARIATION DATABASE」（http://unicode.org/reports/tr37/）、安岡孝一「漢字1文字が最大8バイト、Unicodeの「IVS」とは？」（http://itpro.nikkeibp.co.jp/article/COLUMN/20100126/343783/）、拙稿「包摂された字体を区別できる異体字シーケンス」（http://internet.watch.impress.co.jp/cda/jouyou/2008/09/09/20793.html）あたりをご参照ください。

文字コード uniciode IVS

ogwata
6162
0
14
1

前へ 1 ・・ 3 4

tomo.（むにゃむにゃ） @MnjaMnia

字体レベルの同一性を考える場合、形の同一性と『字』の同一性が食い違ったりするので、実はそんなに単純ではないケースもあるし、大規模集合だとオントロジーを作るのも一苦労なのです（既に良く判らなくなってる）。

2011-01-06 13:10:04

ものかの @monokano

お仕事中で50年に一度の IVS TL に参加できない〜〜

2011-01-06 13:10:35

tomo.（むにゃむにゃ） @MnjaMnia

でまあ、私が写真について考えるようになったのは、このあたりの文字の『形』にまつわる問題をちゃんと考えたいと思ってたからなんだけど、ちょっと一般化し過ぎだったかも知れない。w

2011-01-06 13:13:42

tomo.（むにゃむにゃ） @MnjaMnia

いずれにしても、多分、IVS はいずれ破綻し、でも、既に使われててなかったことにすることもできなくなる事態に直面するだろうなと思う。先に交通整理しとけば良いんだけど、それができずに失敗するのも文字符号の歴史が教える通り…(^_^;;;

2011-01-06 13:20:17

tomo.（むにゃむにゃ） @MnjaMnia

思うに、文字符号というのは言語処理系とかシステムソフトウェアに近いセンスが必要とされるんだけど、アプリケーションよりの人やユーザーよりの人の関心をひきやすく、そっちに引きずられてしまいがちなところにある種の不幸があるような気もする。

2011-01-06 13:23:17

Kiyonori Nagasaki @knagasaki

ヒラギノとMS明朝/ゴシック、メイリオあたりが対応してくれないとちょっと厳しいですね。見通しはどうなんでしょうね。 @ogwata @moroshigeki 今のところ対応フォントは小塚だけ。

2011-01-06 13:52:28

Kiyonori Nagasaki @knagasaki

まったくその通りです。 @kawabata @ogwata 既存の登録済異体字との重複をチェックするのは、過去の登録者が登録時に異体字を分けた意図を明記しない限り不可能

2011-01-06 13:58:15

Kiyonori Nagasaki @knagasaki

今日は昼間に某SさんとIVSの話をしたばかりなのになぜかTLでもIVSの話になってしまっている。

2011-01-06 14:00:17

manabu kawada @manavic_k

たしかに本質論的には一対一対応の保証というのは大問題かもしれませんね。RT @MnjaMnia: 効用論的には検索の話なんですが、より本質的な問題としては指示とか同一性の問題

2011-01-06 14:02:57

師茂樹 MORO Shigeki @moroshigeki

@knagasaki IVS技術促進協議会の事務局がMicrosoftということで、MS系は期待できるのではないかと。あとアプリケーションですねー。

2011-01-06 14:04:47

小形克宏 @ogwata

そこでIVS技術促進協議会の副会長にマイクロソフトのCEOが就任する意味が出るんです。RT @knagasaki: ヒラギノとMS明朝/ゴシック、メイリオあたりが対応してくれないとちょっと厳しいですね。見通しはどうなんでしょうね。 @ogwata @moroshigeki …

2011-01-06 14:08:27

tomo.（むにゃむにゃ） @MnjaMnia

１対１対応以外の方法で同一性を記述できればそれでも良い（私はそういうのを研究してる）のですが、それが難しいからコード使うっていう面があって… (^_^; RT @manavic_k: たしかに本質論的には一対一対応の保証というのは大問題かもしれませんね。

2011-01-06 14:08:53

manabu kawada @manavic_k

全単射を含意するものというコード観に対する @moroshigeki さんの不満は、100%ガチの同一性に拘ることへの批判を含む、と思ったのですが、それは読みすぎ!?（笑） RT @MnjaMnia: １対１対応以外の方法で同一性を記述できればそれでも良い

2011-01-06 15:02:25

tomo.（むにゃむにゃ） @MnjaMnia

多分、大前提のひとつだと思います（だけど、ソフト屋さんは気にしてないかもw）。RT @manavic_k: 全単射を含意するものというコード観に対する @moroshigeki さんの不満は、100%ガチの同一性に拘ることへの批判を含む、と思ったのですが、それは読みすぎ!?（笑）

2011-01-06 15:18:30

tomo.（むにゃむにゃ） @MnjaMnia

考えてみれば、文字符号の類というのは、それがデタラメに、ad hoc に、フィーリングで、妥協の産物として作られているが故に、人文工学的に興味深いという面はあるよな。いわゆる混乱上等というやつ。

2011-01-06 15:43:43

tomo.（むにゃむにゃ） @MnjaMnia

まあ、いずれにしても、最終的に人が目でチェックするしかないという状態が続く限り、体力勝負になっちゃって、理論的な検討がおろそかになってしまうと思う（本当は複数の枠組のプロトタイプを実データ込みで実装して比較するのが望ましい筈）。

2011-01-06 15:49:15

tomo.（むにゃむにゃ） @MnjaMnia

そう言う意味で、手前味噌だけど、CHISE 漢字構造情報データベースは、漢字の抽象形状に関するおそらく最初の大規模で網羅的なコーパスとして、一定の貢献をしたような気はする。が、次の１歩が果てしなく遠いのだ。

2011-01-06 15:53:53

師茂樹 MORO Shigeki @moroshigeki

@manavic_k @MnjaMnia 全単射だけでなく静的な同一性についての素朴な確信、みたいなものでしょうか。ただ、前に書いたのは、そういう話以前に、Unicodeの「現実」にもうちょっと目を向けましょうよ、的な感じでしたけど。

2011-01-06 15:57:37

tomo.（むにゃむにゃ） @MnjaMnia

CHISE 漢字構造情報データベースも、結局、「CHISE IDS 漢字検索」http://bit.ly/fKytDy を作るまで利用人口が少なかった訳で、誰かが検索とか可視化の UI 作らないとだめなんだけど、分業がうまくいっていない訳で。

2011-01-06 15:57:39

師茂樹 MORO Shigeki @moroshigeki

例えば、素朴な処理系を前提とすれば、ダイアクリティカルマーク付きアルファベットの類とか、一意にならないものなんていっぱいあるのに、とか。

2011-01-06 15:59:54

tomo.（むにゃむにゃ） @MnjaMnia

まあ、なんというか、道具立てが貧しいために苦労してるという面はあるよな。有向グラフがほいほいいじれれて、3D CG でぐいぐい可視化できたら、誰でも当たり前に理解できるような話が、今は入力してデータをマネージメントするだけで一苦労な訳で、実はまずツールを作るべきなのかも知れない。

2011-01-06 16:02:31

tomo.（むにゃむにゃ） @MnjaMnia

それはあんまり良い例じゃない気もする。RT @moroshigeki: 例えば、素朴な処理系を前提とすれば、ダイアクリティカルマーク付きアルファベットの類とか、一意にならないものなんていっぱいあるのに、とか。

2011-01-06 16:03:26

tomo.（むにゃむにゃ） @MnjaMnia

Unicode が良かったのは『抽象文字』レベルの同一性を定義して、任意の文字コードのバイト列を持ってきた時、同一性を機械的に判定できる枠組を提供したことだといえるけど、IVS はその枠組なしに導入されたのが問題で、これは質的に違うレベルの問題だといえる。

2011-01-06 16:08:06

前へ 1 ・・ 3 4

いま話題のタグ