文字データいじりしてて気づいたこと

CHISE 文字オントロジーの編集中に見つけたり気づいたりしたことをまとめてみました。
13
前へ 1 ・・ 11 12
tomo.(むにゃむにゃ) @MnjaMnia

U+2938F (𩎏) と M-43105 の場合、川幡包摂基準では包摂しないけど、http://t.co/ra1ZjfiB だと包摂してるみたいだから、包摂しても良いのかな?

2011-09-22 17:10:03
tomo.(むにゃむにゃ) @MnjaMnia

しつもんしつもん!包摂できないはずの異体字に IVS 振っても良いんですか?

2011-09-22 17:07:02
tomo.(むにゃむにゃ) @MnjaMnia

(既に統合漢字に符号位置があるのに近くない方の基底文字使ってる例があったような気がするけど、もしそうだとするとそれはバグなのかな?)

2011-09-22 17:06:12
tomo.(むにゃむにゃ) @MnjaMnia

(同じコレクション内の異なる IVS が同じグリフを指示する場合があることも言ってほしいなぁ。これ知ってないと実装ではまることあり得ると思うんだけどなぁ(コレクション間の対応とは別の問題))

2011-09-22 16:18:59
tomo.(むにゃむにゃ) @MnjaMnia

(ひとつのグリフは複数の IVS に対応しうるというのもなぁ。でもって、Adobe はそれを増やしてるというのも。)

2011-09-22 16:07:41
tomo.(むにゃむにゃ) @MnjaMnia

川幡包摂基準にはないっぽいなぁ。RT @MnjaMnia: U+2923E (𩈾) と M-42681 は同じ文字かどうか?大漢和によれば、M-42681 は M-06805 に同じ。で、CNS での発音一緒だから多分同じなんだろうけど、包摂できるかどうか?)

2011-09-22 15:29:39
tomo.(むにゃむにゃ) @MnjaMnia

U+2923E (𩈾) と M-42681 は同じ文字かどうか?大漢和によれば、M-42681 は M-06805 に同じ。で、CNS での発音一緒だから多分同じなんだろうけど、包摂できるかどうか?)

2011-09-22 15:21:51
tomo.(むにゃむにゃ) @MnjaMnia

「次」が素晴らしい(!)のは、二水と「欠」という複数の(異形がある)部品から構成されている上に、それ自身の造字力も割とあるという点。惜しい(!)のは、字源の異なる部品を unify してるのが二水だけという点。

2011-06-13 16:10:17
tomo.(むにゃむにゃ) @MnjaMnia

あと、「竜」は『近代に再発見された古字(!?)』っぽいので、これを部品として使った文字は「龍」に比べて少ない。(CHISE IDS DB で調べた所、「竜」が 38 に対して「龍」が 274 (UCS 外も入れると 287)で、「龍」を「竜」に置き換えた字の少ないことが判る。

2011-06-06 03:23:58
tomo.(むにゃむにゃ) @MnjaMnia

モリブデン(𨩩)は SIP だけど、イリジウム(鎄)は BMP か。

2011-03-04 22:32:57
tomo.(むにゃむにゃ) @MnjaMnia

AJ1-14137 って U+20560 (𠕠) に対応すべきだよなぁ。U+665F U+E0103 ってのはいやん。

2011-02-25 11:04:21
tomo.(むにゃむにゃ) @MnjaMnia

「回」は「囬」を包摂しないので、「㐭」は「⿱亠囬」を包摂しない筈だから、「亶」は KS004100 を包摂しない訳だが、包摂しない所に VS 付けるって気持ち悪いというか、良くないよなぁ。

2011-02-16 11:35:55
tomo.(むにゃむにゃ) @MnjaMnia

なんとなく、U+4E55 と U+200B0 が分かれてるのが間違いという気がしてきた。

2011-02-16 09:51:33
tomo.(むにゃむにゃ) @MnjaMnia

宋体だと C6-2562 は U+4E55 と同じになっちゃうのか。

2011-02-16 09:46:00
tomo.(むにゃむにゃ) @MnjaMnia

KS001760 は「虎」の異体字とあるから M-00148 と同じだよな。

2011-02-16 09:35:49
tomo.(むにゃむにゃ) @MnjaMnia

KS001760 は AJ1-14209 と同字形っぽいが、KS は U+4E55 U+E0102 で AJ1 は U+200B0 U+E0100 なのか(こういうのいっぱいあるんだろうなぁ)。

2011-02-16 09:29:06
tomo.(むにゃむにゃ) @MnjaMnia

AJ1-19071 もだぶってるのか。っていうか、そもそも IVS はそういうものなのか?今まで近寄らないようにしてたので、何も知らなくてはまりまくってる感じ(-_-;;;。

2011-02-12 16:51:14
tomo.(むにゃむにゃ) @MnjaMnia

AJ1-13912 の IVS は U+9039 U+E0101 と U+9054 U+E0101 の2つあることを知る。うーむ。

2011-02-12 16:18:37
tomo.(むにゃむにゃ) @MnjaMnia

CNS:3-2623 は U+5FF9 (忹) に map されてるけど、発音的には M-10399 じゃなくて M-10410 (U+225D6 (𢗖)) だよなぁ。でもって、M-10399 と M-10410 は別字だよなぁ。

2011-02-01 16:08:09
tomo.(むにゃむにゃ) @MnjaMnia

U+7589 (疉) と U+24D01 (𤴁) も困ったもんだ。

2010-10-08 17:22:41
tomo.(むにゃむにゃ) @MnjaMnia

U+6577 (敷) と U-00022FBE (𢾾) ってやっぱ事実上の包含関係?

2010-10-05 18:31:05
tomo.(むにゃむにゃ) @MnjaMnia

U+8641 (虁) と U+27144 (𧅄) 関連ってぐじゃぐじゃすぎる(まるで間違い探しだw)。

2010-09-30 18:14:32
tomo.(むにゃむにゃ) @MnjaMnia

JIS X 0213 の 1-89-49 が U+7A81 で JIS X 0208 の 38-45 が U+2592E だったらまだましだったんだけどなぁ。

2010-09-24 22:33:16
tomo.(むにゃむにゃ) @MnjaMnia

U+2592E (𥤮) と U+7A81 (突) が分かれてるってのもやだよなぁ。

2010-09-24 22:29:30
前へ 1 ・・ 11 12