Unicodeに対する理解の助け

JIS90から2004になる時に「増やす」ではなく「変える」が選ばられた理由。長いので全部読んでないんだけど、「略字が自動的に正字になるように企図した」ってことなのね。http://t.co/6DNGmbI427

2014-01-29 18:54:57

で、今はWindowsもMacもOSレベルで使用してる符号化文字集合が2004だから、できるだけN付きのフォントを使った方がいいのか。：漢字の字形がWindowsとMacで異なる場合の対処方法 http://t.co/KOL3inB0WM @inforatijpさんから

2014-01-29 19:04:34

ゆうさん「あうんず工房」 @U1_lo

そうなるとUnicodeってなんなのよって話になるんだけどそれはまた別の話ってことにしとく。あとモリサワがデザイン書体についてN付きのものを用意しない理由もよくわからん。

2014-01-29 19:06:31

じぇけJK @ajtajta_m

@U1_lo Windowsについて言えばOSレベルで使用している符号化文字集合はUnicodeのもので、主たる符号化方式はUTF-16 で、"Unicodeに含まれる日本語文字を画面に表示するときのフォントのデザイン"がJIS2004(のものがある)ってだけですよ。

2014-01-29 19:17:21

ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m 複雑ですね！w

2014-01-29 19:23:07

じぇけJK @ajtajta_m

@U1_lo 追記：Vistaや7が JIS2004対応って雰囲気なのは「Unicodeの文字集合にはJIS2004の文字がほとんど全て入ってる」ので「JIS2004の文字がひととおり表示できる（JIS2004フォントもつけてあるし）」って意味なので。(Macも同じと思いますが)

2014-01-29 19:23:27

じぇけJK @ajtajta_m

@U1_lo あ、訂正「JIS2004フォントをつけてある」じゃなくて「JIS2004のデザインで表示できるフォント」というべきでした。

2014-01-29 19:24:29

ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m Unicode文字集合と2004の文字集合はUnicodeの方が大きい包含関係って解釈でいいですか？

2014-01-29 19:25:20

じぇけJK @ajtajta_m

@U1_lo Yes,包含関係。Unicodeのほうはハングルとかアラビア文字も含むからずっと広いです。（ので、OSもJIS2004の数値ではなくUnicodeの数値で情報処理した方が世界対応しやすいですよね。）

2014-01-29 19:27:57

ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m なるほどー。だから情報を見るとUnicodeの番号とCID番号と両方出てくるんですね。

2014-01-29 19:29:39

じぇけJK @ajtajta_m

@U1_lo Win OSの中はUnicode(の符号化文字集合)で動いてるので、包含されるJIS2004の文字をデータとして適切に扱うことができる。それをどう表示するかはフォントが握ってる（のでフォントをかえれば昔のJISのデザインで表示することも出来る)て感じです。

2014-01-29 19:34:45

ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m 昔のフォントで表示した時、参照するのはOSが持ってる文字集合なくてフォントが持ってる古い文字集合ってことですか？（なんか間違ってる気がするけど

2014-01-29 19:38:34

じぇけJK @ajtajta_m

@U1_lo (厳密にはケースバイケースなんですがｗ)私が言ったのは「Unicode文字集合のフォントで表示されるデザインが(古い)JIS90なフォント」「Unicode文字集合のフォントでデザインがJIS2004のフォント」の2種類のことです。

2014-01-29 19:55:39

じぇけJK @ajtajta_m

最近のWinやMacのOSレベルで扱えるフォントで、内部でJIS2004の面区点番号(あるいはEUC-JP-2004とかSHIFT-JIS-2004でもいいけど)とデザインを対応させて持ってるようなガチJIS2004(Unicodeではない)フォントってあるんだろうか。

2014-01-29 20:44:10

じぇけJK @ajtajta_m

http://t.co/NQXae52mQn では「各種オペレーティング・システムがJIS2004基準の文字の形に対応した日本語フォントの搭載を」と。そうなんだよね、アドビさんともなるとOS搭載フォントについて「JIS2004に対応したフォント」などとは言わないよね。

2014-01-29 20:58:57

ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m むむ…そうなると…やっぱりエンコーディングって意味ないんじゃ…って発想になってしまいますw でもなんとなく理解できたような…難しいw

2014-01-29 21:36:55

じぇけJK @ajtajta_m

@U1_lo エンコーディングはDTP屋さんには全く意味のない都合で必要なものですからねぇｗあ、 http://t.co/hivFvDsQR6 にある、「Adobe-Japan1-6の２つのフォント」の図は良い図だなと思いましたｗ

2014-01-29 21:50:13

ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m あそうか。Unicodeの数字と、cMapの対応関係が違うわけか。要はJIS90とか2004てのは規格としての文字集合であって…実際に引っ張りだしてくる符号化文字集合としてはOSが持ってるUnicode文字集合が生きてるってこと…ですかね？

2014-01-29 22:15:07

ゆうさん「あうんず工房」 @U1_lo

そもそも文字集合は字形を規定するものではない、という解釈をしてみる。

2014-01-29 22:17:08

じぇけJK @ajtajta_m

@U1_lo 理解はあってると思います。さっきのモリサワのサイト図で Unicode 845b(JISの1-19-75)が例ですが、OSは 845bを考えてれば動作できる(数字付き文字集合としてUnicodeを使えば足りる)ので、JISの数値1-19-75は出番ナシなのです

2014-01-29 22:38:58

ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m ですよね！ありがとうございました！感謝！

2014-01-29 22:40:38

ゆうさん「あうんず工房」 @U1_lo

つまりUnicode番号8FBBってのが入力された場合、その時点では一点しんにょうとも二点しんにょうともつかぬどちらかの「つじ」で、それとフォント情報が合わさって初めてフォントが持ってるcMapで8FBBと対応するCID番号を探し出してそのCID番号に対応した字形が表示される。

2014-01-29 23:05:10

ゆうさん「あうんず工房」 @U1_lo

超ややこしい言い方だけどどうもそういうことか。

2014-01-29 23:05:33

ゆうさん「あうんず工房」 @U1_lo

どうでもいいけど「しんにょう」って之繞って書くのね。知らなかった。

2014-01-29 23:06:12

ゆうさん「あうんず工房」 @U1_lo

8FBBはシュレディンガーのつじ。

2014-01-29 23:07:31

いま話題のタグ