文字データいじりしてて気づいたこと

CHISE 文字オントロジーの編集中に見つけたり気づいたりしたことをまとめてみました。
13
前へ 1 ・・ 10 11 次へ
tomo.(むにゃむにゃ) @MnjaMnia

なるほど。こちらも確認しました。ありがとうございます。RT @ogwata: JIS X 0213:2004解説、3.3.3に説明あります。初版で原案作成委員会が文字の形を間違えたままISO/IEC 10646に提案したのがそのまま承認されちゃった。一方でJISの方はギリギリで…

2012-01-04 17:20:45
tomo.(むにゃむにゃ) @MnjaMnia

おおお。なるほど!ありがとうございます。RT @moji_memo: この話ですね。 http://t.co/8kXZjKWz

2012-01-04 17:17:57
tomo.(むにゃむにゃ) @MnjaMnia

(やっぱ、U+29FCE は U+29FD7 を包摂するという風に考えないとつじつまが合わないか)

2012-01-04 15:55:00
tomo.(むにゃむにゃ) @MnjaMnia

(U+29FCE って JIS X 0213 の 2-94-05 が出典なんだけど、JIS X 0213 の 2-94-05 (𩿎) って ISO/IEC 10646:2003 の U+29FCE の例示字形を包摂しない気がするんだよな。(^_^;)

2012-01-04 15:46:59
tomo.(むにゃむにゃ) @MnjaMnia

(U+29FCE (𩿎) と U+29FD7 (𩿗) ってやっぱ重複ミスなのかな?でも、なんで ISO/IEC 10646-2:2001 と ISO/IEC 10646:2003 で U+29FCE の例示字形は違うんだろうか?重複に気づいて U+29FCE の方を修正した?)

2012-01-04 15:40:26
tomo.(むにゃむにゃ) @MnjaMnia

(甲骨時代からある『新字』と『旧字』の例?: http://t.co/qfIn5T4s http://t.co/KHmhohFS

2011-12-27 14:17:35
tomo.(むにゃむにゃ) @MnjaMnia

(「醬」「醤」、あんまりお墓向きじゃない気がしたけど拓本文字データベースにあった!でもって、やはり「⿰丬寽」みたいになってるのが多い(というか、それしか例がないような)。ウィキペディアの『拡張新字体の影響により上が「将」の「醤」が…』ってどこから出てきた話?(^_^;)

2011-12-27 13:54:22
tomo.(むにゃむにゃ) @MnjaMnia

(それはさておき、そろそろ CNS 11643 7面の取り込み完了しそうな感じで、これで UTF-2000 始めた当初の目標達成な感じがするけど、その後の追加目標が多すぎてあんまりやり遂げた感はあんまりなかったりするんだけども)

2011-12-16 16:25:10
tomo.(むにゃむにゃ) @MnjaMnia

(最近やってる IVS サポートのためのデータ作りには、昔もろさんとこの予算で入力してもらった Adobe-Japan1 関係のデータも使ってたりするのだった(申し訳ないことに5年程放置プレーになってたのだった(-_-;;;))

2011-12-11 14:47:36
tomo.(むにゃむにゃ) @MnjaMnia

(U+5F9E は JTB13A を包摂しない気がする)

2011-11-03 23:14:19
tomo.(むにゃむにゃ) @MnjaMnia

(U+5F4C は JTB11D (U+5F4C E0102) を包摂しない気がする)

2011-11-03 22:49:19
tomo.(むにゃむにゃ) @MnjaMnia

ということは、C7-564E = U+29974 は C5-7234 = U+29984 を含むということになる?って、統合漢字的には重複バグだよなぁ)

2011-11-02 17:04:17
tomo.(むにゃむにゃ) @MnjaMnia

(U+29984 (𩥴) と U+29974 (𩥴) は全く一緒に見える訳だが、http://t.co/lKX3MtZG によれば、C7-564E は「利」が「⺉」じゃなくて「𠚣」みたいなのにした形も含むみたいで、

2011-11-02 17:03:44
tomo.(むにゃむにゃ) @MnjaMnia

73F9 E0101 がどうも矛盾してる気がするんだけど、いったいどっちが正しいんだろう?)

2011-11-02 14:01:44
tomo.(むにゃむにゃ) @MnjaMnia

IVD では 73F9 E0101 = JB4391 が7画っぽくて、73F9 E0102 = IB2387 が6画っぽくて、JIS X 0213 の 1-80-74 は見た目よく判んなくて画数は6画、JIS X 0212 の 43-91 は見た目よく判らなくて並び的には7画で、

2011-11-02 13:59:44
tomo.(むにゃむにゃ) @MnjaMnia

(文字情報一覧表だと、MJ017240 = JD8074 = 73F9 E0101 が7画, MJ017241 = IB2387 = 73F9 E0102 で6画になってるけど、

2011-11-02 13:53:07
tomo.(むにゃむにゃ) @MnjaMnia

(という訳で、CHISE では同字体扱いだけど Adobe-Japan1 や汎用電子では区別されてるものを表示するプログラムを書いてみて、ついでに、住基と戸籍も表示してみたのだが、そういうのは大抵このどっちかが違ってるからポリシーの問題か互換性のためなのかが判んない罠w)

2011-11-02 13:47:58
tomo.(むにゃむにゃ) @MnjaMnia

(まあ、でも、汎用電子には、(少なくとも理念としては)字体レベルの包摂規準的なものと互換性のためにデザイン差だけど敢えて入れたものがあると言って良いのかな?(ただ、検討結果ってのが微妙にフィーリングで決まってるっぽいのでちょっと自信なし))

2011-11-02 11:00:08
tomo.(むにゃむにゃ) @MnjaMnia

(汎用電子の報告書を読み返してるのだけど、4.2.3.3 基準の概要 で「立」の一画目が縦か横かという違いはデザイン差だって書いてあるのに、4.2.4 検討結果の一例 では「デザイン差としない。」と書いてあったりしてなかなか愉快すぎるw。結局、規準がよう判らん!(-_-;)

2011-11-02 10:52:20
tomo.(むにゃむにゃ) @MnjaMnia

(文字情報基盤の文字情報一覧表を CHISE に組み込みたいような気がするけど、クリエイティブ・コモンズ・ライセンス 2.1「表示、継承」と GPL は非互換な気がするんだよなぁ。別パッケージに分けて各自でリンクする形とかにしないと無理?)

2011-11-02 03:10:21
tomo.(むにゃむにゃ) @MnjaMnia

(JIS X 0208:1997 の 78-21 は14画とあって M-39214 と同字形ってことになってるけど、どう見ても点が足りないよなぁ。しかも、包摂規準的には点のある奴(大漢和字形とか中国・台湾字形とか)を包摂できないっぽい。包摂規準のバグなのか平成明朝のバグなのか?)

2011-10-24 20:36:17
tomo.(むにゃむにゃ) @MnjaMnia

(U+53E0 は AJ1-19219 を包摂しない気がする)

2011-10-14 17:22:55
tomo.(むにゃむにゃ) @MnjaMnia

U+294A2 (𩒢) は包摂規準的には M-43471 を包摂しそうだけど、C7-2B27 は http://t.co/6lBxsOBg の発音を見た感じでは M-43471 とは別字っぽい。

2011-10-04 16:22:27
tomo.(むにゃむにゃ) @MnjaMnia

(U+5B73 が JT-B011 を包摂するかどうかちょっと悩む。(@_@) こういうのを考えた場合、類似性に基づく局所的包摂規準とでもいうべきものがないとまずい気がするが、そうすると、形式的には包摂規準の数って青天井になるのかなぁ?)

2011-10-01 17:24:20
tomo.(むにゃむにゃ) @MnjaMnia

(自信がないので、とりあえず、((=>ucs@cns . #x2938F)) ってのを立てて、そこから U+2938F と M-43105 に ->denotational 素性を張ることにしてみた)

2011-09-22 17:12:10
前へ 1 ・・ 10 11 次へ