Togetter/min.tを安心してお使い頂くためのガイドラインを公開しました。
編集可能
2012年3月7日

漢字コードの歴史

まとめました。
27
なんでやねんDTP/おぢん @works014

[IVS][安岡孝一氏] / “新しいIVDと互換漢字の人名用漢字 | yasuokaの日記 | スラッシュドット・ジャパン” http://t.co/hf8SUmy3

2012-03-05 09:27:16
K.Takata @k_takata

「Unicode文字列型が複数の内部表現をサポート」ってどういうこと?「Python 2系からの移植を容易にするため…Unicodeリテラルシンタックスも復活」これは良い。 http://t.co/LxkUP45x

2012-03-06 21:44:00
成瀬 @nalsh

PEP393 Flexible String Representation か。Pythonにしてはすげー頭悪いことしてる気がする http://t.co/fndkFh99

2012-03-06 23:03:57
成瀬 @nalsh

@knsmr Webで内部UTF-16はダメなんじゃないかと思ってます

2012-03-07 10:16:45
西村 賢🐠Coral Capital / Ken Nishimura @knsmr

@nalsh ん? どうしてですか? UTF-8じゃないと面倒すぎるという意味でしょうか?

2012-03-07 10:35:51
成瀬 @nalsh

@knsmr HTTP絡みの操作する時に外部から来たバイト列と、コード由来のUnicode文字列が混ざって面倒+そもそも仕様決めるのが大変という。PHP6なんかはそれが理由で死んじゃったのだと思ってたり

2012-03-07 10:43:28
西村 賢🐠Coral Capital / Ken Nishimura @knsmr

@nalsh でも、日本のWebだと外部から来るバイト列はいまだにかなりShift_JISだったりもしませんか? ヨーロッパもアジアもUTF-8が完全制覇というには程遠いのでは?

2012-03-07 10:46:41
成瀬 @nalsh

@knsmr バイト列ならShift_JISでもUTF-8でもあんまり問題ないんですよ。例えばHTTP_REFERERとか識別子は同じバイト列になるので。でもUTF-16だとここで変換しないといけないので、req.params[b"HTTP_REFRER"]とかやらないといけなく

2012-03-07 10:52:42
西村 賢🐠Coral Capital / Ken Nishimura @knsmr

@nalsh SJISもUTF8もASCII上位互換だから、ASCIIはそのままでいいってことでしょうか? むむむ?

2012-03-07 11:00:29
成瀬 @nalsh

@knsmr はい。Rubyのその辺いじってて、内部UTF-16だと発狂するなぁと思いました。ASCII互換だけ相手してても仕様決めるのが悩ましかった

2012-03-07 11:01:43
KOSAKI Motohiro @kosaki55tea

Webは一見文字列に見える、なにか謎のバイナリで通信してる無法の荒野だからな。まともな文字列のあつかいをしてる言語ほどWebでは死ぬ

2012-03-07 11:03:40
西村 賢🐠Coral Capital / Ken Nishimura @knsmr

@nalsh なるほど、そういえば、UTF-8がASCIIのスーパーセットでもあるというのって、あまりに当たり前で忘れていました。そういう意味ではShift_JISも偉かったのかも。内部UCS2は時代の必然と思ってましたが、確かに面倒かも

2012-03-07 11:04:49
成瀬 @nalsh

謎のバイナリを謎のバイナリのまま扱うすべを持っていないと頭がおかしくなって死ぬ。持っていても頭がおかしくなるのでるびいすとはあたまがおかしい

2012-03-07 11:04:53
Yukihiro Matsumoto @yukihiro_matz

@knsmr @nalsh 内部UCS2は修羅の道ですよ。理論上は綺麗かもしれないけど、実践ではいいことなんにもない。

2012-03-07 11:06:27
成瀬 @nalsh

@yukihiro_matz @knsmr いやいや、Win32APIや.NET、Cocoaとやりとりしやすい、ICUを叩きやすいっていうメリットはあります。これに目が眩んだ人も多い

2012-03-07 11:07:17
成瀬 @nalsh

ちなみに、最初に wide character なんてアホな考えを思いついたのは日本人のはずである

2012-03-07 11:08:28
森崎正人 @hutai

それがどうしたの?あほとはいえないとおもうが。UTF-8(Unicode)以前のISOでの2021アップワード互換上word単位は必須だったし。 QT @nalsh: ちなみに、最初に wide character なんてアホな考えを思いついたのは日本人のはずである

2012-03-07 11:10:44
成瀬 @nalsh

@hutai ISO 2021でなくISO 2022でしょうか。wide characterというかEUC用の拡張が入ったのはISO 2022の86年改正なので必須ということは無いです

2012-03-07 11:20:58
西村 賢🐠Coral Capital / Ken Nishimura @knsmr

@nalsh @yukihiro_matz なるほどー。Unicodeが描いた美しい“文字列オブジェクト”の世界ですね。ネットワーク上もDBもUTF-8が主流になって、結局インピーダンスミスマッチ的なことが起こってるんでしょうか

2012-03-07 11:23:36
森崎正人 @hutai

@nalsh 2022でしたっけ?わすれちゃったけど(ご免)。EUC(DEC code でもあるw。)から苦労してmbとのバランスは手探りで議論されたわけでね。 QT @nalsh: ISO 2021でなくISO 2022でしょうか。wide characterというかEUC用

2012-03-07 11:24:29
西村 賢🐠Coral Capital / Ken Nishimura @knsmr

@nalsh @yukihiro_matz しかし「バイト列」を扱っていれば済むという発想って、BiDiを持つ文化圏を考慮していないということもありませんか。そうか、プロトコルがASCIIだから話がややこしいのかしら

2012-03-07 11:25:54
森崎正人 @hutai

世の中、標準から離れてしまった、規格検討について批判を若いひとは簡単にするけど(wcとmb問題などね。)、当時は手探りであり、かつ、欧米ではまったく興味すらない世界だったのわ。これの一番の原因は、ちゃんとした論文/本を英語でかけないというジレンマね。 > @nalsh [X41]

2012-03-07 11:28:28
成瀬 @nalsh

@hutai 時系列的には、Σプロジェクト→EUC→DEC 漢字ですね。仰るとおり「マルチバイトのほうが正しかった」ってのはかなり後になってわかったことなので、後出しの話ではあります

2012-03-07 11:29:07
成瀬 @nalsh

@hutai EUCはΣプロジェクト絡みの日本での検討結果をAT&Tにフィードバックして、アメリカで作られたものなので、実は意外とやりとりがあったりしますよ

2012-03-07 11:30:22
森崎正人 @hutai

NO! これは絶対にいえる。1982のDECUS論文。DEC→EUC→UJISの順ですよ。 QT @nalsh: @hutai 時系列的には、Σプロジェクト→EUC→DEC 漢字ですね。仰るとおり「マルチバイトのほうが正しかった」ってのはかなり後になってわかったことなので、

2012-03-07 11:30:57
残りを読む(178)

コメント

成瀬 @nalsh 2012年3月7日
関係ないつぶやきを削除、PEP393への言及を追加
0