Unicodeとかのお話

偉い人がいっぱいつぶやいてくれたのでまとめました。
17
めるぽん.c @melponn

UTFとUCSの違いがいまいち分からないクラスタ

2010-06-21 11:22:30
めるぽん.c @melponn

UnicodeのUTF-8, UTF-16とUCSのUTF-8, UTF-16の違いが分からないクラスタ

2010-06-21 11:23:49
めるぽん.c @melponn

そもそもUnicodeとUCSの関係が分からないクラスタ

2010-06-21 11:27:07
めるぽん.c @melponn

というか現実的にUnicodeとかUCSってどこまで頑張ればいいの?ってのがよく分からないクラスタ

2010-06-21 11:28:10
katsyoshi @katsyoshi

ノ RT @melponn: そもそもUnicodeとUCSの関係が分からないクラスタ

2010-06-21 11:28:33
あんどちん(安藤敏彦) @andochin

@melponn UTFがコードを表してUCSが文字セットじゃなかったっけ?

2010-06-21 11:28:51
なかわんくま/nakawankuma/ @nakawankuma

@andochin UCSが文字コード、文字セット、UTFはエンコード [今週土曜日は東京勉強会来てね! http://j.mp/aBsbhg]

2010-06-21 11:30:44
めるぽん.c @melponn

@andochin 自分は全部のクラスタに当てはまるのでよく分かりません!

2010-06-21 11:30:50
あんどちん(安藤敏彦) @andochin

@nakawankuma うん。だからUTFが文字コードを表すエンコード方法でUCSが文字コードに対応する文字の集合なんじゃないかと

2010-06-21 11:32:16
Hiroyuki Mori @hiroyuki_mori

@andochin UTFは文字符号化方式、UCS2と4があって符号化文字集合(俗にいう文字セット)と文字符号化方式(俗にいう文字円コーディング方式)の両側面があります。

2010-06-21 11:33:11
なかわんくま/nakawankuma/ @nakawankuma

@andochin エンコードはエンコードであって、文字セットとはちょっと関係がない。 [今週土曜日は東京勉強会来てね! http://j.mp/aBsbhg]

2010-06-21 11:33:16
あんどちん(安藤敏彦) @andochin

@nakawankuma UTFはあくまでもエンコード、数値を表すものということでいいの?

2010-06-21 11:34:35
Hiroyuki Mori @hiroyuki_mori

文字エンコーディング方式ですね(^^; RT @hiroyuki_mori: @andochin UTFは文字符号化方式、UCS2と4があって符号化文字集合(俗にいう文字セット)と文字符号化方式(俗にいう文字円コーディング方式)の両側面があります。

2010-06-21 11:35:00
あんどちん(安藤敏彦) @andochin

@hiroyuki_mori UCSは単なる文字集合だと思ってました。符号化まで含んでるんですね

2010-06-21 11:35:12
なかわんくま/nakawankuma/ @nakawankuma

@andochin UTF-16がUnicodeの文字セットの番号と直接結びつくから誤解のたね。 JISコードと、ShiftJISをかんがえるといい。 [今週土曜日は東京勉強会来てね! http://j.mp/aBsbhg]

2010-06-21 11:35:41
なかわんくま/nakawankuma/ @nakawankuma

. @hiroyuki_mori @andochin @harunyan UCSはややこしいから話し出さない方がいいよねw [今週土曜日は東京勉強会来てね! http://j.mp/aBsbhg]

2010-06-21 11:36:09
Hiroyuki Mori @hiroyuki_mori

@andochin 符号化文字集合で割り当てられた符号をどのようにデータとして置き換えるかを定義したものが文字符号化方式ですね。

2010-06-21 11:36:12
Hiroyuki Mori @hiroyuki_mori

@nakawankuma でもUCS話さないとエンコーディングできないですよ(^^;

2010-06-21 11:36:57
あんどちん(安藤敏彦) @andochin

@nakawankuma UTF16が直接結びつくのはUCS2?サロゲートペアがあるとUCS4を使うことになる?必須という意味でなくサロゲートペアを使うと2byteを超える文字が出るので。

2010-06-21 11:39:01
Hiroyuki Mori @hiroyuki_mori

@andochin UCSってUniversal Charactor Setとなっていますが、文字集合に何かしらの符号化を行っていないと管理できないじゃないですか。 なので、2オクテットで管理したものがUCS2で4オクテットで管理したものがUCS4

2010-06-21 11:40:46
Hiroyuki Mori @hiroyuki_mori

@andochin んー、間が空きすぎている(^^;;

2010-06-21 11:41:07
Hiroyuki Mori @hiroyuki_mori

@andochin ちなみに1オクテットは8bitなので実質1バイトですね(^^;

2010-06-21 11:41:52
あんどちん(安藤敏彦) @andochin

@hiroyuki_mori なるほど。難しそうなのできっと140文字では説明できないと思うからちょっと読んできます^^

2010-06-21 11:42:03