青空文庫の入力用文字集合を改めて考える

@wakufactoryさんの青空文庫の漢字使用頻度数統計から、青空文庫の入力文字の同定をJIS X 0208:1997ベースから拡張すべきでは,という議論が出ました。
29
前へ 1 ・・ 4 5
tomo.(むにゃむにゃ) @MnjaMnia

((将来電子テキストを読む機械にとって包摂規準はその『符号化された漢字』が何を指しているのかを知る極めて重要な情報だと思われるが、残念なことに、現状、JIS のにしても UCV にしても機械可読ではないし、明確な計算モデルも定義されていない))

2013-04-12 23:35:55
tomo.(むにゃむにゃ) @MnjaMnia

(それはさておき、何が言いたかったかというと、JIS X 0213:2000 も JIS X 0208:1997 に比べると符号化文字のセマンティクスの形式化という観点では後退してたけど、JIS X 0213:2004 はとてもひどいよねってこと(これまで何度も叫んだことだが))

2013-04-13 00:14:44
tomo.(むにゃむにゃ) @MnjaMnia

(JIS X 0213:2004 は例示字形さえ合わせときゃ文句ないでしょっていう態度が透けて見えて非常によろしくない。とはいえ、抽象文字の包摂範囲というものがちゃんと機械可読に示され、計算可能でなければ、見かけ重視になっちゃうのも仕方がないとは思う)

2013-04-13 00:19:51
tomo.(むにゃむにゃ) @MnjaMnia

(まあでも、青空文庫のような場合、国語研のコーパスのように、どれかの標準をそのまま使うのではなくて、JIS や UCV(こっちは IRG の度に変化する罠w)を拡張・制限した独自の規準を使った方が良いように思う。ただ、それをどのように機械可読な形で書くかが問題)

2013-04-13 00:29:15
貍人鳥(小池咊夫) @koikekaisho

@MnjaMnia (透けてではなく、ほんとにそれだけなので)

2013-04-13 00:30:21
貍人鳥(小池咊夫) @koikekaisho

BMPの簡体字やら当用漢字字体やらを全部IVSに纏めて、空いたところに2面の漢字を。もちろん異体はすべてIVS、ってやるとスッキリするかなあ。(基底文字をどれにするかで紛糾

2013-04-13 00:50:05
貍人鳥(小池咊夫) @koikekaisho

仮名増補、どんどん欲しい気分といらない理性が距離を拡げて自我が崩壊しそう。

2013-04-13 01:01:54
tomo.(むにゃむにゃ) @MnjaMnia

(枝番方式は避けた方が吉のような気が(手遅れかもだけど))

2013-04-13 01:12:05
貍人鳥(小池咊夫) @koikekaisho

包摂粒度の異なる規格群を無理やり統合して、破綻したものを互換で救ってみたら、さらに粒度の違う追加提案を呑む羽目になって後出しジャンケンを受け入れ切れなくなって枝番で誤魔化そうと足掻いてる⬅イマココ

2013-04-13 01:18:13
貍人鳥(小池咊夫) @koikekaisho

@MnjaMnia 例えば日本国内でもとりあえず3種類の包摂粒度があって、固有名詞が絡むとさらに変なことになりますが…

2013-04-13 01:31:46
tomo.(むにゃむにゃ) @MnjaMnia

もし任意の包摂粒度の包摂規準の複数の集合を扱う形式的枠組があれば、形式的には何個でも扱えると思います。 RT @koikekaisho: 例えば日本国内でもとりあえず3種類の包摂粒度があって、固有名詞が絡むとさらに変なことになりますが…

2013-04-13 01:36:23
貍人鳥(小池咊夫) @koikekaisho

@MnjaMnia イメージはできなくもないですが´д` ;

2013-04-13 01:38:58
貍人鳥(小池咊夫) @koikekaisho

説と悦を包摂する粒度もあるわけで…

2013-04-13 01:45:41
貍人鳥(小池咊夫) @koikekaisho

unifyを統合と訳したり包摂と訳したり、その両方を使い分けたりすると詐欺師的な気分を味わえる。

2013-04-13 01:51:43
UTF-8はBOMなしでって言ったよね? @moji_memo

包摂の話題で「粒度」という言葉が使われるようになったのは、(以前小林さんが「ガス抜き」と斬り捨てていた)「文字コード委員会」の功績なのかな。

2013-04-13 02:59:42
前へ 1 ・・ 4 5