クメール文字とUnicode

クメール文字がUnicodeに入った経緯がひどいという連続ツイートを見かけたので、感想をまじえつつまとめてみました。 カンボジア在住の皆様の見解や情報などありましたら追記させていただきます。
海外 Unicode カンボジア クメール文字
82
@LGRikka
今日の4限は、Unicodeにクメール文字を入れたとき、どれだけ揉めたかという話だったのだけれど、なかなかそれが複雑な問題を孕んでいたので、自分用の整理がてら連続ツイートしようかなと。
@LGRikka
「主にカンボジアで使われるクメール文字をUnicodeに入れようとしたとき、カンボジアの言語学者どころかカンボジア人が誰もいない状態で、文字コードの専門家(外国人)だけが集まってリストを作ったせいで、ワケわからん文字は入ってるわ、必要な文字はないわのウンコードになった」っていう。
(Ǝ)ɐsıɥıɥso⅄ ouɐɓnS @koshian
2009年の BarCamp Phnom Phen で クメール文字が Unicode に入ってみんなこれで母国語が使えるよという発表を会場拍手大喝采で迎えてた現場を見て涙した人間として、とても興味深い話。
@LGRikka
これだけ聞くと「いやいやいや言語学者呼べよアホか」で済みそうな話なのだけれど、そうはいかない。なぜならカンボジアには当時、「連絡するべきお上の機関」がなかったのだ、という。
@LGRikka
クメール文字の辞書はロクなのがない、政府なりなんなりの機関もない、正書法が確立されていないからどうしようもない状態だったら、まあ、母語話者の直観とズレた文字コードが出来ちゃっても仕方ないよねという感はある。
@LGRikka
日本で考えたら、日本に政府がなくて、ひらがなもカタカナも各地方で好き勝手に使ってて、教科書も辞書もなくて、日本語の学者すらいないっていう状態で、アメリカ人とフランス人とドイツ人がひらがなのリスト作るようなもん……そりゃ、変体がなとか、「ヶ」とか間違って収録しちゃうよねーみたいな。
@LGRikka
しかしながらこれに激怒した人もいた。「何これ全然違うんですけど」っていうことを抗議しに行ったらしい、の、だが、抗議した側はあまりにもデジタルの流行について無知すぎた。そのせいで、ボロカスにやられてしまったのである……。
@LGRikka
これがその「ボロカス」の内容。そんな言う……?ってくらいボロカス。 pic.twitter.com/GjgfgdlS49
拡大
@LGRikka
そんでもって、現状、クメール文字は「腐った」文字コードのまま、Unicodeに収録されている(腐ってると言ったのは某先生)。文字コードがウンコードでも、レンダリングを頑張ったり、ワープロソフト側で頑張ってもらえば、使えることは使えるから、という理由で、組み直されることはなかった。
@LGRikka
「ワープロソフトが頑張る」内容は、たとえばひらがなで説明すると、「ぷ」をひと文字で表すのではなく、「ふ」のコード+「半濁点」のコードで表し、レンダリングでなんとかする、ということ。
(Ǝ)ɐsıɥıɥso⅄ ouɐɓnS @koshian
これは合字の話か。2〜3年位前にカンボジアの BarCamp に行った時に、この合字が Android でうまくできないみたいな話を聞いてきた覚えがある。
@LGRikka
確かに、技術を使えば、見た目的には問題がないのかもしれないけれど、やっぱり母語話者の直観とはまったくズレたものが世界で使われるコードとして入れられていることには、私は違和感を覚える。たんなる技術の問題と割り切るか、アイデンティティまで拡大するかは、人によって違うのだろう。
@LGRikka
私は、たとえ技術上、問題がなくとも、Unicodeに「あいうえおかきくけこ」でも「いろはにほへと」でもなく、「ぬろなしあげすぴ」みたいな順番でひらがなが収録されていたらイヤだと思う。でも、「順番なんてどうでもいいじゃん。ワープロ使ってる間、誰が意識するのさ」っていうのも事実。
狩野宏樹 @KAN0U
@LGRikka この辺の比較は、 峰岸真琴先生の『タイ語,ラオス語,カンボジア語(クメール語)の文字処理と組版における課題』 aa.tufs.ac.jp/~mmine/lecture… がオンラインで読める日本語情報としては最も詳しいかと思います。
@LGRikka
クメール文字に関する今回の問題を考えるにあたって、教訓となることは多い。まずは、正書法とも呼べるものを確立しておくこと。その根拠をきちんと示せること。そして、これはとても重要だと思うのだけれど、デジタルに関する知識を仕入れておくこと。
@LGRikka
最後のことは私がいつも言っていることで、相手のことを知らないままに、相手を批判したり、自分の要求を通すのは難しい。理論言語学に関する学会発表でも、たまに、「その理論、ウン年前に終わったやつじゃない?」みたいな古い理論を例に挙げて、「だから○○はダメだ」みたいなことを言う人がいる。
@LGRikka
今回のことも、デジタル技術についてもう少し詳しければ、もしくは、教えてもらおう、という感じで下手に出れば、ウンコードになる前に、もう少し前向きな解決策があったように思えてならない。
@LGRikka
何かの製品が8割組み上がっている段階でそれをブチ壊そうとしてもOKが出ることはそうそうないわけで、「予算の範囲内で、ここと、ここだけ直せませんかね?」っていう提案をしなきゃダメなんじゃないかと。
@LGRikka
クメール文字に関しても、Unicodeに入れる表が出来上がっていて、実装も始まっていた段階で、突然、丸腰で抗議を入れたのが本当に良くなかった。もう少し、文字コードの流行について詳しかったら、お互いが折り合える点を探すことで、ここまでひどい文字コードにはならなかったんじゃないかと。
(Ǝ)ɐsıɥıɥso⅄ ouɐɓnS @koshian
クメール文字、カンボジアは70年代に一度完全に文化や伝統を破壊しちゃったから……。首都プノンペンには何度も行ってるが、俺はいまだに「年寄りのカンボジア人」を見たことがない。みんな虐殺されちゃったんだよね……
@LGRikka
文字コードの話は、聞いているといろいろなことを考えさせられますね。正書法があることがいかに嬉しいことか。辞書があることがいかに恵まれているか。
@LGRikka
今後、カンボジアが辞書も教科書もしっかり作っていって、正書法が確立して、「誰から見てもこれはクソですわ」みたいな感じになったら、また新たなクメール文字コードができるのかもしれないですね。
@LGRikka
でも、Unicode側の「クメール文字はカンボジア以外でも使われてるからお前らが代表とか認めないからねプププ」は卑怯だと思うんだな……。「漢字は日本でも使われてるから中国人のもんじゃありませーんwwwww」って言ってるようなもんだ。そりゃ、まあ、そうなんだけど、さあ、っていう。
@LGRikka
クメール文字のツイート、すごい勢いでRTされてるので関連の資料(今日もらったやつ)を公開しておきますね。 カンボジア代表団をボロカスに叩いてたのはこれです。 ci.nii.ac.jp/naid/400153415… 事のなりゆきが読めるのはこれ。 iss.ndl.go.jp/books/R0000000…
@LGRikka
ちなみに、実際の文字コード(右)と、カンボジア代表団の提案(左)はこんなにも違った。しかし、代表団の提案も完璧かというとそうでもなく、冗長なところも多々、見受けられる。 pic.twitter.com/huluujGYbP
拡大
残りを読む(3)

コメント

nekosencho @Neko_Sencho 2014年12月2日
クリンゴン文字(SFに出てくる架空の文字)を収録するより、実際の文字のほうがいろいろめんどくさいことが多いんだなあ
(Ǝ)ɐsıɥıɥso⅄ ouɐɓnS @koshian 2014年12月2日
ありがとうございます。ツイート追加させていただきました。 今週末にカンボジアに行ってくるので何か直接現地の人達に聞ければいいなあと思っています。 (東風フォントのときはいちユーザーとして大変お世話になりました m(_ _)m)
(Ǝ)ɐsıɥıɥso⅄ ouɐɓnS @koshian 2014年12月2日
FB で頂いた情報も追記しました。
TOMIZAWA Kan @kantom 2014年12月2日
知識が無いのでこの話に関係しているかはわかりませんが、Macは10.7からKhmerに対応してますが、絶対に必要な子音が入ってないんですよね。なので、Khmer V2ってのを別途インストールして使ってます。こっちのほうがマシ。 http://www.reankhmer.com/References/khmerUnicodeMac
源八 @gen_pati 2014年12月2日
なんでカンボジアの言語学者が居ないのかと思ったらそうかクメール・ルージュか・・・
小形克宏 @ogwata 2014年12月2日
たいへん興味深く読みました。小林氏の論文も読んでみたのですが、そこでのポイントは〈カンボジア問題の悲劇は、母語利用者だけではなく、善意の協力者のすべてが、現代的な情報通信技術の水準について無知だったことにある。〉という部分、つまりカンボジア人よりもむしろ問題だったのは彼等に協力して非現実的な対案を作った非カンボジア人ということのように読めますが、それについてはこのまとめでは触れられてないように思いました。
熾(旧アカウント) @methylenedi_oxy 2014年12月2日
「ひらがなもカタカナも各地方で好き勝手に使ってて」を見て思い出しましたが、伊達政宗など、奥州の人々はある時期まで濁点が三つだったそうです。http://saint-just.seesaa.net/article/19288531.html
村人Lv0 @ikatako18 2014年12月4日
漢数字をソートすると「一七三九二五八六十四」になるのが気持ち悪い。Finderだと「一九五三四七十二八六」なんて並びになるし。
kartis56 @kartis56 2014年12月4日
ikatako18 漢数字は数字じゃなくて漢字扱いだからだそうな http://blog.jnito.com/entry/2014/12/03/185146
ひろ@ふかふかが足りない @hiro_h 2014年12月5日
それなら、カンボジアも今しばらく、独自の文字コードにしないとどうにもならん気がする… あ、tronコードに組み込んで広めて、unicode止めりゃええのか(暴論w
fukken @fukken 2017年6月20日
「知識人や学者」どころか、「学校に行ってる奴」とか「大人」とかいうレベルで皆殺しにしましたからねぇ。本も焼いたし学校も焼いた。それから40年弱ですが、欠落を埋めるのは生半可な事ではない、と。
キューマン・エノビクト @QmanEnobikto 2020年2月21日
結局のところ、必要ないものや2文字が1文字になってるようなものをほっておいて、ちゃんとしたものをどっか別の領域に後付けで収録するしかないんだろうか。Unicodeの領域が余ってるのは不幸中の幸いだなぁ
ログインして広告を非表示にする
ログインして広告を非表示にする