西村賢さんのPython内部文字コードの話題から端を発するUnicodeの話

西村賢 (@knsmr)さんのPython内部文字コードの話題から端を発するUnicodeの話というかハンドアックスの応酬。
41
前へ 1 2 ・・ 5 次へ
成瀬 @nalsh

@hutai EUCはΣプロジェクト絡みの日本での検討結果をAT&Tにフィードバックして、アメリカで作られたものなので、実は意外とやりとりがあったりしますよ

2012-03-07 11:30:22
成瀬 @nalsh

@hutai む、それわたしが知っている日本語UNIXシステム諮問委員会→AT&T→UJIS/EUCの流れと別の流れっぽいですね。ちょっと調べてみます

2012-03-07 11:34:28
Yukihiro Matz @yukihiro_matz

@knsmr @nalsh BiDiについては以前考えたことはあるのですが、文字の並びの方向は表示層に属するので、プログラミング言語の文字列としては必要な情報ではないだろうというのが結論でした。縦書き文化からの類推で、実際にBiDi言語を使う人は違う意見があるのかもしれませんが

2012-03-07 11:35:13
西村 賢🐠Coral Capital / Ken Nishimura @knsmr

@shyouhei UTF-8によってマルチバイトは一級市民に加えてもらったからオレたちはもうそれ以上(BiDiとか文字がくっつくとか、、、よく知りませんが)は知らんという態度なのだとしたら、過去の問題が再現してるような気がしたのでした

2012-03-07 11:39:52
成瀬 @nalsh

@hutai なるほど。当時の資料あったら頂けませんか?昔JAEや日本語UNIXシステム諮問委員会までは調べたんですが、UNIXシステム日本語機能提案書やJAE2のマニュアルは手に入れたんですが、JAE1やそれ以前まで遡れなかったんです http://t.co/2YLzHwSK

2012-03-07 11:41:21
成瀬 @nalsh

@knsmr @shyouhei BiDiや縦書きはRuby M17Nより上のレイヤの仕事だと思っています。「文字がくっつく」は異体字セレクタや結合文字列の話ですかね、こちらはString#each_glyphとかそういうのが必要かなぁと考えてるんですがユースケース待ち

2012-03-07 11:44:15
成瀬 @nalsh

@hutai なるほど。DECUS論文集は国会図書館にあるようなので見てみます

2012-03-07 11:53:10
成瀬 @nalsh

@hutai おぉ、井上さん元はソードだったんですね、知らなかった。社長室長のイメージが強くて

2012-03-07 12:03:48
成瀬 @nalsh

@hutai なるほど、シフトJISの歴史ででてくる「ソードの16ビットマシン」ってのがこれなんですね http://t.co/dqJx9u9V のコメント欄

2012-03-07 12:29:27
成瀬 @nalsh

@hutai 「1bitでシングルinvoke」というのは 0xA1-0xBF 0x21-0x7E とかのことですか?

2012-03-07 12:35:04
成瀬 @nalsh

@hutai 結局Windows-31Jで統一したわけですからねぇ…

2012-03-07 12:36:48
成瀬 @nalsh

@hutai あれ、それって外字や予約領域だけじゃないですか?DEC漢字の0208領域って両方8bit目立ってたと思うのですが http://t.co/9upxoXHG このへんとか

2012-03-07 12:41:23
成瀬 @nalsh

@hutai あれ、0208が立っていて外字が立ってるように見えるんですが

2012-03-07 12:47:16
成瀬 @nalsh

@hutai えぇ、発想は理解しました。後の世でASCII文字が2バイト目に誤爆するのはそういう理由かと(ぉ

2012-03-07 12:52:23
成瀬 @nalsh

@hutai BMPで収まればまだよかったんですけどねぇ。あとWeb業界的にはそもそもASCII互換じゃないといろいろつらいなぁというのが最近の知見ですね

2012-03-07 13:18:00
( Φ _⊞) @n0kada

@nalsh Win32APIや.NET、Cocoa、ICUを叩くスレはここですか

2012-03-07 14:27:12
成瀬 @nalsh

@n0kada ICUはdisりたいですねぇ

2012-03-07 14:28:46
( Φ _⊞) @n0kada

@knsmr サロゲートペアを導入した時点でその「美しさ」なんて瓦解してるので

2012-03-07 14:29:00
成瀬 @nalsh

@n_soda @hutai 内部コードを外部に持ち出す人が多かったのと、ネットワークには文字列かバイナリかよくわからない謎のオクテット列が溢れていてそういうのはwchar_t列に入れづらいのがねぇ

2012-03-07 15:00:33
成瀬 @nalsh

@hutai @n_soda wchar_tは日本語UNIXシステム諮問委員会のlong char由来だと理解してます

2012-03-07 15:01:20
成瀬 @nalsh

@hutai @n_soda wchar_tの由来を前に調べた時はこのへん http://t.co/xeidzVnY

2012-03-07 15:04:54
成瀬 @nalsh

GB18030は32bit目立ってるので色々悩む

2012-03-07 15:36:17
西村 賢🐠Coral Capital / Ken Nishimura @knsmr

@n0kada インデックスアクセスが可能な世界が崩壊しただけで、文字を扱う上でのあれこれはオブジェクトに隠蔽して抽象化するんだといった世界観が美しいということなので、サロゲートペアはいいんじゃないでしょうか。いや良くないかもですが

2012-03-07 16:03:35
( Φ _⊞) @n0kada

@knsmr それUnicodeとは無関係では

2012-03-07 16:04:36
前へ 1 2 ・・ 5 次へ