西村賢さんのPython内部文字コードの話題から端を発するUnicodeの話
@hutai EUCはΣプロジェクト絡みの日本での検討結果をAT&Tにフィードバックして、アメリカで作られたものなので、実は意外とやりとりがあったりしますよ
2012-03-07 11:30:22@hutai む、それわたしが知っている日本語UNIXシステム諮問委員会→AT&T→UJIS/EUCの流れと別の流れっぽいですね。ちょっと調べてみます
2012-03-07 11:34:28@knsmr @nalsh BiDiについては以前考えたことはあるのですが、文字の並びの方向は表示層に属するので、プログラミング言語の文字列としては必要な情報ではないだろうというのが結論でした。縦書き文化からの類推で、実際にBiDi言語を使う人は違う意見があるのかもしれませんが
2012-03-07 11:35:13@shyouhei UTF-8によってマルチバイトは一級市民に加えてもらったからオレたちはもうそれ以上(BiDiとか文字がくっつくとか、、、よく知りませんが)は知らんという態度なのだとしたら、過去の問題が再現してるような気がしたのでした
2012-03-07 11:39:52@hutai なるほど。当時の資料あったら頂けませんか?昔JAEや日本語UNIXシステム諮問委員会までは調べたんですが、UNIXシステム日本語機能提案書やJAE2のマニュアルは手に入れたんですが、JAE1やそれ以前まで遡れなかったんです http://t.co/2YLzHwSK
2012-03-07 11:41:21@knsmr @shyouhei BiDiや縦書きはRuby M17Nより上のレイヤの仕事だと思っています。「文字がくっつく」は異体字セレクタや結合文字列の話ですかね、こちらはString#each_glyphとかそういうのが必要かなぁと考えてるんですがユースケース待ち
2012-03-07 11:44:15@hutai なるほど、シフトJISの歴史ででてくる「ソードの16ビットマシン」ってのがこれなんですね http://t.co/dqJx9u9V のコメント欄
2012-03-07 12:29:27@hutai あれ、それって外字や予約領域だけじゃないですか?DEC漢字の0208領域って両方8bit目立ってたと思うのですが http://t.co/9upxoXHG このへんとか
2012-03-07 12:41:23@hutai BMPで収まればまだよかったんですけどねぇ。あとWeb業界的にはそもそもASCII互換じゃないといろいろつらいなぁというのが最近の知見ですね
2012-03-07 13:18:00@n_soda @hutai 内部コードを外部に持ち出す人が多かったのと、ネットワークには文字列かバイナリかよくわからない謎のオクテット列が溢れていてそういうのはwchar_t列に入れづらいのがねぇ
2012-03-07 15:00:33@n0kada インデックスアクセスが可能な世界が崩壊しただけで、文字を扱う上でのあれこれはオブジェクトに隠蔽して抽象化するんだといった世界観が美しいということなので、サロゲートペアはいいんじゃないでしょうか。いや良くないかもですが
2012-03-07 16:03:35