50年に1度!? IVSをめぐる熱いw討論
字体レベルの同一性を考える場合、形の同一性と『字』の同一性が食い違ったりするので、実はそんなに単純ではないケースもあるし、大規模集合だとオントロジーを作るのも一苦労なのです(既に良く判らなくなってる)。
2011-01-06 13:10:04でまあ、私が写真について考えるようになったのは、このあたりの文字の『形』にまつわる問題をちゃんと考えたいと思ってたからなんだけど、ちょっと一般化し過ぎだったかも知れない。w
2011-01-06 13:13:42いずれにしても、多分、IVS はいずれ破綻し、でも、既に使われててなかったことにすることもできなくなる事態に直面するだろうなと思う。先に交通整理しとけば良いんだけど、それができずに失敗するのも文字符号の歴史が教える通り…(^_^;;;
2011-01-06 13:20:17思うに、文字符号というのは言語処理系とかシステムソフトウェアに近いセンスが必要とされるんだけど、アプリケーションよりの人やユーザーよりの人の関心をひきやすく、そっちに引きずられてしまいがちなところにある種の不幸があるような気もする。
2011-01-06 13:23:17ヒラギノとMS明朝/ゴシック、メイリオあたりが対応してくれないとちょっと厳しいですね。見通しはどうなんでしょうね。 @ogwata @moroshigeki 今のところ対応フォントは小塚だけ。
2011-01-06 13:52:28まったくその通りです。 @kawabata @ogwata 既存の登録済異体字との重複をチェックするのは、過去の登録者が登録時に異体字を分けた意図を明記しない限り不可能
2011-01-06 13:58:15たしかに本質論的には一対一対応の保証というのは大問題かもしれませんね。RT @MnjaMnia: 効用論的には検索の話なんですが、より本質的な問題としては指示とか同一性の問題
2011-01-06 14:02:57@knagasaki IVS技術促進協議会の事務局がMicrosoftということで、MS系は期待できるのではないかと。あとアプリケーションですねー。
2011-01-06 14:04:47そこでIVS技術促進協議会の副会長にマイクロソフトのCEOが就任する意味が出るんです。RT @knagasaki: ヒラギノとMS明朝/ゴシック、メイリオあたりが対応してくれないとちょっと厳しいですね。見通しはどうなんでしょうね。 @ogwata @moroshigeki …
2011-01-06 14:08:271対1対応以外の方法で同一性を記述できればそれでも良い(私はそういうのを研究してる)のですが、それが難しいからコード使うっていう面があって… (^_^; RT @manavic_k: たしかに本質論的には一対一対応の保証というのは大問題かもしれませんね。
2011-01-06 14:08:53全単射を含意するものというコード観に対する @moroshigeki さんの不満は、100%ガチの同一性に拘ることへの批判を含む、と思ったのですが、それは読みすぎ!?(笑) RT @MnjaMnia: 1対1対応以外の方法で同一性を記述できればそれでも良い
2011-01-06 15:02:25多分、大前提のひとつだと思います(だけど、ソフト屋さんは気にしてないかもw)。RT @manavic_k: 全単射を含意するものというコード観に対する @moroshigeki さんの不満は、100%ガチの同一性に拘ることへの批判を含む、と思ったのですが、それは読みすぎ!?(笑)
2011-01-06 15:18:30考えてみれば、文字符号の類というのは、それがデタラメに、ad hoc に、フィーリングで、妥協の産物として作られているが故に、人文工学的に興味深いという面はあるよな。いわゆる混乱上等というやつ。
2011-01-06 15:43:43まあ、いずれにしても、最終的に人が目でチェックするしかないという状態が続く限り、体力勝負になっちゃって、理論的な検討がおろそかになってしまうと思う(本当は複数の枠組のプロトタイプを実データ込みで実装して比較するのが望ましい筈)。
2011-01-06 15:49:15そう言う意味で、手前味噌だけど、CHISE 漢字構造情報データベースは、漢字の抽象形状に関するおそらく最初の大規模で網羅的なコーパスとして、一定の貢献をしたような気はする。が、次の1歩が果てしなく遠いのだ。
2011-01-06 15:53:53@manavic_k @MnjaMnia 全単射だけでなく静的な同一性についての素朴な確信、みたいなものでしょうか。ただ、前に書いたのは、そういう話以前に、Unicodeの「現実」にもうちょっと目を向けましょうよ、的な感じでしたけど。
2011-01-06 15:57:37CHISE 漢字構造情報データベースも、結局、「CHISE IDS 漢字検索」http://bit.ly/fKytDy を作るまで利用人口が少なかった訳で、誰かが検索とか可視化の UI 作らないとだめなんだけど、分業がうまくいっていない訳で。
2011-01-06 15:57:39例えば、素朴な処理系を前提とすれば、ダイアクリティカルマーク付きアルファベットの類とか、一意にならないものなんていっぱいあるのに、とか。
2011-01-06 15:59:54まあ、なんというか、道具立てが貧しいために苦労してるという面はあるよな。有向グラフがほいほいいじれれて、3D CG でぐいぐい可視化できたら、誰でも当たり前に理解できるような話が、今は入力してデータをマネージメントするだけで一苦労な訳で、実はまずツールを作るべきなのかも知れない。
2011-01-06 16:02:31それはあんまり良い例じゃない気もする。RT @moroshigeki: 例えば、素朴な処理系を前提とすれば、ダイアクリティカルマーク付きアルファベットの類とか、一意にならないものなんていっぱいあるのに、とか。
2011-01-06 16:03:26Unicode が良かったのは『抽象文字』レベルの同一性を定義して、任意の文字コードのバイト列を持ってきた時、同一性を機械的に判定できる枠組を提供したことだといえるけど、IVS はその枠組なしに導入されたのが問題で、これは質的に違うレベルの問題だといえる。
2011-01-06 16:08:06