ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?

18
小形克宏 @ogwata

日本の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646(≒Unicode)で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。

2010-04-25 23:46:39
小形克宏 @ogwata

一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。

2010-04-25 23:52:40
小形克宏 @ogwata

これは美点ばかりではない、というお話です。

2010-04-25 23:54:58
小形克宏 @ogwata

今回ISO/IEC 10646の追補8原案に提案された「emoji」は725文字。このうち日本の携帯絵文字は674字。その差は51文字で、これは何かというとアイルランドが独自に調査し新規追加提案した文字。これらは日本の携帯絵文字と一切関係がない。

2010-04-26 00:01:40
小形克宏 @ogwata

アイルランド代表は独自に調査し、これらの少なくない文字を提案してきた。たとえばガイドブックを由来とする「シャワー」の絵文字とか、英文の麻雀入門由来の「西風」を意味する絵文字とか。

2010-04-26 00:04:26
小形克宏 @ogwata

ベトナムの十二支に由来する水牛、ヤギ、ペルシャの十二支のクジラ、ワニなんてのもあった。これらアイルランドが提案した追加絵文字の全てとは言わないが、典拠に疑問がある字が多いと言わざるを得ない。そして知る限り典拠に疑問があることは多くの人が認識していた。では、なぜ提案は通ったか?

2010-04-26 00:15:45
小形克宏 @ogwata

それは「自分の主張を通すために妥協した」からです。前述した通り、ISOやIECの会議では、投票ではなく全員一致で決める(委員会段階の話)。アイルランドの賛成を取り付けるため、彼の提案を呑んだということ。では、なんで会議で典拠について大きな問題にならなかったのか?

2010-04-26 00:27:09
小形克宏 @ogwata

自分自身について言えば(いささかの懺悔もこめて言うのだが)「自分の提案を通すため」。もしも会議でアイルランドの典拠について疑義を呈すれば大議論になり、結果として自分達の提案に飛び火して否認されたかもしれない。通訳を介してそこまで議論する気になれなかったというのもありました。

2010-04-26 00:35:17
小形克宏 @ogwata

ここでちょっと不思議なのは、ぼくだけでなく他の全員が典拠について疑問を口にしなかったこと。少なくとも日本とアメリカの一部は、アイルランドの新規追加のうち顔文字に関しては疑問をもっていたと理解している。でも、それは結局のところ議論すらされなかった。

2010-04-26 00:39:02
小形克宏 @ogwata

ここでISO/IEC 10646の規格原文にあたってみよう。その和訳JISであるJIS X 0221をみると箇条14で実装水準というのを規定している。これの意味するところは「収録文字の全部でなく部分的に実装してよい」ということ。これは7ビット8ビット系の規格にはない特徴だと思う。

2010-04-26 00:43:16
小形克宏 @ogwata

ISO/IEC 10646(≒Unicode)は全部で数十億文字が符号化可能。それを全部実装することなど夢物語。だからこそ実装水準を規定して部分実装を許している。これはASCII(7ビット/128文字)やISO/IEC 8859-1(8ビット/256文字)にはない考え方。

2010-04-26 00:47:38
小形克宏 @ogwata

しかし、この実装水準は負の側面を持つ。全部実装しなくてよいという規定、だったら少しくらいヘンな文字が混じってもいいだろうという意識を生む。直接聞いたわけではないが、アイルランド提案について典拠の議論がなかったのは、これが原因ではないか。まあ、あくまで個人的推測ですが。

2010-04-26 00:50:40
成瀬 @nalsh

@ogwata ISO/IEC 2022にも部分実装を推奨する規定がありますね

2010-04-26 00:52:53
小形克宏 @ogwata

おっと、ISO/IEC 2022にありましたか。ご指摘感謝。それはG0/G1に配置するレパートリとして? RT @nalsh: @ogwata ISO/IEC 2022にも部分実装を推奨する規定がありますね

2010-04-26 01:08:02
小形克宏 @ogwata

WG 2会議にかぎらず、ICT分野の公的標準を策定するJTC 1の「憲法」はJTC 1 Directivesとして規定されている。http://bit.ly/9KiJB6 その12.5.3で委員長は全員の合意を目指すべしとある。しかしこれは一人でも異論を唱えつづけると崩壊する。

2010-04-26 01:16:35
小形克宏 @ogwata

同時にISO/IEC 10646(≒Unicode)は部分実装を許す。その結果、典拠に疑問のある、実装されるかどうか分からない「ゴミ」が増えていく。これはISO/IEC 10646の構造的な問題。そういうお話でした。

2010-04-26 01:19:13
tomo.(むにゃむにゃ) @MnjaMnia

@ogwata 実装水準というのは昔あった文字結合とかの処理をはしょることを許すための話だったような記憶が

2010-04-26 01:21:44
成瀬 @nalsh

@ogwata ISO 2022初版の2.3です。なので、レパートリでなくレパートリを納めるための拡張手法ですかね http://bit.ly/doAhJd (PDF)

2010-04-26 01:21:58
小形克宏 @ogwata

ゴミが増えていく? それが何の問題なのだという立場もあるでしょう。規格にゴミが入っていても、それは実装しなければよいだけの話。「ゴミ」というのはあくまで相対的な評価であり、時間が経つうち有効な使い方が発見されるものもある。CHISEがIDSを再発見したように。

2010-04-26 01:23:15
tomo.(むにゃむにゃ) @MnjaMnia

@ogwata 計算機科学的には GC があれば良いって話ではあるんですけどね(CHISE でいつかやんなきゃいけないなと思いつつ難しいのでさぼってる問題のひとつ)

2010-04-26 01:24:29
tomo.(むにゃむにゃ) @MnjaMnia

@ogwata 文字符号は形式言語の一種で、ソフトウェアの一種だということですかね?実装とモデルをいったりきたりしながら(時々リファクタリングしつつ)進化して行くようなものというか。

2010-04-26 01:28:38
小形克宏 @ogwata

@MnjaMnia @nalsh ISO/IEC 10646と部分実装の話は芝野さんのこのページをご参照。http://bit.ly/cpulZP あ、ここにISO/IEC 2022も部分実装ってあるなあ。ところで守岡さん、GCって何?

2010-04-26 01:42:17
小形克宏 @ogwata

おお! 割り切った考え方ww RT @MnjaMnia: @ogwata 文字符号は形式言語の一種で、ソフトウェアの一種だということですかね?実装とモデルをいったりきたりしながら(時々リファクタリングしつつ)進化して行くようなものというか。

2010-04-26 01:43:23
小形克宏 @ogwata

しかし、ぼくにはどうにも「ゴミ」に関して割り切れないんですね。確かに語感ほど問題はないかもしれない。しかし、全員一致の負の遺産として典拠に疑問が増える文字がボロボロ増えていっていいのかなあ? という素朴な疑問です。

2010-04-26 01:45:45
tomo.(むにゃむにゃ) @MnjaMnia

@ogwata あ、GC というのは Garbage Collector の略です。

2010-04-26 01:55:22