Unicodeに対する理解の助け

DTP屋さんが抱いた「じゃあUnicodeってなんなの…?」って疑問に対して解説していただいた話のまとめ。
3
前へ 1 ・・ 3 4 次へ
ゆうさん「あうんず工房」 @U1_lo

みんなUnicodeスカラー値のことを略してUnicodeって言うんだよね。今はもうわかる。

2014-01-30 12:52:08
じぇけJK @ajtajta_m

@U1_lo ところがUnicodeスカラ値ではなく UTF16エンコードされたもののことを"Unicode"と呼んでることも多いのです(両者はかなり近いけど、一部の文字だけ差がある状態なのですが)

2014-01-30 13:01:09
ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m エンコードされるとどんなふうに変わるのです?

2014-01-30 13:04:35
じぇけJK @ajtajta_m

@U1_lo 「16bitずつデータを保持する」というコンピュータの都合にあうようになっています。'A'のスカラ値U+0041は無変換、つちよしのスカラ値U+20BB7 はケタが多いので無理でして D842 DFB7 と16bit x2に変換してOSはメモリに格納してます。

2014-01-30 13:08:27
じぇけJK @ajtajta_m

@U1_lo つまり「OSの内部では文字列はUnicodeだ」とかおおざっぱな表現をよく聞きますが、OSがメモリに保持してる数値はスカラ値(いまんとこ最大21bit)じゃなくてUTF16エンコードされた1単位16bitのデータなのが実態なのであります、というお話し。

2014-01-30 13:16:02
ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m んーなるほど。それのことは「スカラー値」みたいな呼び名はないんですか?

2014-01-30 13:16:26
じぇけJK @ajtajta_m

@U1_lo エンコードされた文字列は "UTF16の文字列","SHIFT-JISの文字列"て感じに言うしかないですかね。あとすみません MacOS だと filesystem とかで UTF8 も使ってたりするみたいで、UTF16だけでもなかったですw

2014-01-30 13:20:23
ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m そうなんですねー。さっさと統一すればいいのにとか思ってしまいますねw

2014-01-30 13:22:05
じぇけJK @ajtajta_m

@U1_lo UTF32だと変換不要なんですが無駄にメモリ使いすぎる、UTF8のほうが長さが節約できる。(日本人とか中国人があんなに漢字いれてって言うと思ってなくて、ホントは16bitで全部納まりUTF16=スカラ値となる目論見でした・・・)とか、まぁいろいろなんですよw

2014-01-30 13:26:09
ゆうさん「あうんず工房」 @U1_lo

Unicodeという言葉が指す範囲も規格全体だったりUnicode文字集合だったりUnicodeスカラー値だったりエンコードされたスカラー値だったりするみたいで広すぎやねん。

2014-01-30 13:27:32
じぇけJK @ajtajta_m

@U1_lo USBってことばもUSB規格だったりUSBコネクタだったりUSBメモリだったりしますけど、ああいうのって言葉遣いが雑な人が適当に広めちゃうので諦めてください!w

2014-01-30 13:30:06
ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m 最初にUnicode考えたひとが漢字文化の文字数を舐めてたってことだと思ってますw でもメモリたくさん食うんじゃしかたないですね。

2014-01-30 13:33:35
ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m 諦めてます!w でも区別して認識しないと理解に繋がらないですよね。

2014-01-30 13:34:24
ゆうさん「あうんず工房」 @U1_lo

鷗と鴎はUnicodeが別なのね。つまり「この二つは同じ字種だけど違う字体である」とUnicode的には考えられているってことね。Unicodeってのは字体という概念の集合体で、それが具体的にどんな字形なのかを決めるのは、そのフォントがどの規格に準じているかってことなんだよね。

2014-02-02 08:52:27
ゆうさん「あうんず工房」 @U1_lo

その規格ってのがJIS2004とか90。つまり文字集合と一口に言っても字体の集合と字形の集合と2種類あったと考えるのがよさそうだ。そう考えるとなるほど「ややこしいアプローチしてる」と言われたのも納得だな。

2014-02-02 08:54:56
ゆうさん「あうんず工房」 @U1_lo

どうやら字形の符号化文字集合のことを文字セットと呼ぶのかな。これであってるならようやくわかってきた気がする。

2014-02-02 09:01:38
ゆうさん「あうんず工房」 @U1_lo

だからWindowsをXPからVista以降にしたら「JIS90の字形は使えなくなる」というのは不正確なんだな。「標準搭載のフォントの場合、JIS90の字形がJIS2004の字形に置き換わる」ってことか。

2014-02-02 09:12:36
ゆうさん「あうんず工房」 @U1_lo

だとしたら例えばInDesignで、Mac側でヒラギノ角ゴPro Nで表示してたJIS2004字形である二点しんにょうの「つじ」を、XPのInDesignで開いたらどうなるんだろ。実験したい。

2014-02-02 09:15:17
ゆうさん「あうんず工房」 @U1_lo

ここ見る限り「character=字体または字種」「glyph=字形」の意味で使われてるっぽい。http://t.co/3zP0ojdOhl

2014-02-02 09:34:46
ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m これに対して今さら質問です。UnicodeってWindows2000の時から採用されてるんですよね。Vistaになって変わったの標準搭載のフォントが2004の規格に沿った字形になったって解釈でいいですか? https://t.co/4y5P5CjmmV

2014-02-02 09:57:26
じぇけJK @ajtajta_m

@U1_lo そうです、一部のフォントが更新されて、新しいフォントがデフォルトになっただけって感じ。(たしかw)

2014-02-02 10:58:06
ゆうさん「あうんず工房」 @U1_lo

@ajtajta_m ありがとうございます。てことはvista以降ではJIS90字形は使えないってのはやっぱり言い過ぎみたいですね。ようやく理解しました。

2014-02-02 11:13:20
ゆうさん「あうんず工房」 @U1_lo

ややこしいアプローチになったのも当然だ。最初に信じてしまった問題が誤情報だったんだから。もうちょい疑ってかかるべきだったか。

2014-02-02 11:15:05
ゆうさん「あうんず工房」 @U1_lo

グリフとか字形とか言ってるけど、最終的にそのフォントがその字形を表示する文字のカタチという見え方というかデザインというか、それを表す言葉はないのかもね。

2014-02-02 13:28:49
ゆうさん「あうんず工房」 @U1_lo

そのへんの認識は人によってまちまちだったりもしそうだし。そのことを字形と呼ぶ人もいそう。こういうのはなるべく多数に合わせたい。

2014-02-02 13:30:03
前へ 1 ・・ 3 4 次へ