青空文庫の入力用文字集合を改めて考える
((将来電子テキストを読む機械にとって包摂規準はその『符号化された漢字』が何を指しているのかを知る極めて重要な情報だと思われるが、残念なことに、現状、JIS のにしても UCV にしても機械可読ではないし、明確な計算モデルも定義されていない))
2013-04-12 23:35:55(それはさておき、何が言いたかったかというと、JIS X 0213:2000 も JIS X 0208:1997 に比べると符号化文字のセマンティクスの形式化という観点では後退してたけど、JIS X 0213:2004 はとてもひどいよねってこと(これまで何度も叫んだことだが))
2013-04-13 00:14:44(JIS X 0213:2004 は例示字形さえ合わせときゃ文句ないでしょっていう態度が透けて見えて非常によろしくない。とはいえ、抽象文字の包摂範囲というものがちゃんと機械可読に示され、計算可能でなければ、見かけ重視になっちゃうのも仕方がないとは思う)
2013-04-13 00:19:51(まあでも、青空文庫のような場合、国語研のコーパスのように、どれかの標準をそのまま使うのではなくて、JIS や UCV(こっちは IRG の度に変化する罠w)を拡張・制限した独自の規準を使った方が良いように思う。ただ、それをどのように機械可読な形で書くかが問題)
2013-04-13 00:29:15BMPの簡体字やら当用漢字字体やらを全部IVSに纏めて、空いたところに2面の漢字を。もちろん異体はすべてIVS、ってやるとスッキリするかなあ。(基底文字をどれにするかで紛糾
2013-04-13 00:50:05包摂粒度の異なる規格群を無理やり統合して、破綻したものを互換で救ってみたら、さらに粒度の違う追加提案を呑む羽目になって後出しジャンケンを受け入れ切れなくなって枝番で誤魔化そうと足掻いてる⬅イマココ
2013-04-13 01:18:13@MnjaMnia 例えば日本国内でもとりあえず3種類の包摂粒度があって、固有名詞が絡むとさらに変なことになりますが…
2013-04-13 01:31:46もし任意の包摂粒度の包摂規準の複数の集合を扱う形式的枠組があれば、形式的には何個でも扱えると思います。 RT @koikekaisho: 例えば日本国内でもとりあえず3種類の包摂粒度があって、固有名詞が絡むとさらに変なことになりますが…
2013-04-13 01:36:23包摂の話題で「粒度」という言葉が使われるようになったのは、(以前小林さんが「ガス抜き」と斬り捨てていた)「文字コード委員会」の功績なのかな。
2013-04-13 02:59:42