Unicode2.0「ハングル大移動」の経緯

六花 (@LGRikka) さんによる、おそらく日本一内容の濃い文字コード史の授業のレポートです。
39
@LGRikka

①さて、遅くなりましたが、ふたたび自分の備忘録として、『ハングルをUnicodeに入れる際に起きた諸問題』についてまとめておこうと思います。前回はクメール文字についてつぶやきましたが、それについては他の方がまとめてくださいました。→ togetter.com/li/752547

2014-12-10 23:35:06
@LGRikka

②クメール文字の場合は、カンボジアに「相談すべき上の機関」がなく、「カンボジア在住の学者」もいない状況で、”外国人” たちがクメール文字を整理したことにより、いろいろな問題が起こったわけですが、ハングルの場合は、韓国政府が頑張ったおかげで、まったく違った展開を見せました。

2014-12-10 23:35:13
@LGRikka

③まずは、ハングルの特徴から見てみましょう。ハングルは、見たことがある方も多いかと思いますが、ひとつの文字がいくつかのパーツから成り立っています。→ kajiritate-no-hangul.com/kana.html

2014-12-10 23:35:21
@LGRikka

④よってハングルを文字コード化する場合には、(A)各パーツを収録しておいて、組み合わせて1文字を表現する方法 と、(B)全ての組み合わせを一覧表で収録する方法 の二つが考えられます。ひらがなで説明すると、(A)は「は」+「半濁点」で「ぱ」を生成する方式で、(B)はそのまんま収録。

2014-12-10 23:35:28
@LGRikka

⑤実際、韓国では、(A)(B)両方のパターンが作られ、使われていたそうです。一覧表パターンの場合だと、漢字も収録されていました。(時期に酔って漢字を使ったり使わなかったりするのは、韓国の歴史とも関わりがあるようですが、そこらへんは勉強不足です。すみません。)

2014-12-10 23:35:38
@LGRikka

⑥問題が起こったのはwindows95発売時。このOSには、それまで韓国で使われていた文字コードのいずれでもなく、Microsoftが作ったUnified Hangul Code(UHC)なる、謎の文字コードが積まれていました。イヤな予感がしてきますね。

2014-12-10 23:35:45
@LGRikka

⑦このUHCがどのような問題を抱いていたか、それは、大雑把に言えば、「文字の順番がバラバラだった」ことでした。途中からは、既存の文字コードをそのまま移す形で作られていたのですが、それ以外の「すきま」に、入らなかった文字を、グッチャグチャに入れてしまったのです。

2014-12-10 23:35:54
@LGRikka

⑧当然、韓国政府はブチ切れ。なんじゃこりゃー!ということになり、Microsoft潰れろ並の問題になったそうです(実際に見てきたわけではないですが)。これを受けて、Microsoft側はやらかし事案を認め、「UHCではファイルの保存ができない」ようになり、事なきを得ました。

2014-12-10 23:36:02
@LGRikka

⑨さて、UHC事件はこれにて収束したのですが、Unicode1.0はどうだったのでしょうか。Unicode1.0で、ハングルに割り当てられたスペースはおよそ2600字。ちなみに、ハングルの全パターンは11000字。全 然 足 り な い 。

2014-12-10 23:36:45
@LGRikka

⑩なんとUnicode1.0は、「この辺に入れてみて、入らなかったやつはテキトーに別のところに入れちゃえ」みたいな設計をしていたのです。イヤな予感がしてきました。UHC問題、再来です。

2014-12-10 23:36:53
@LGRikka

⑪韓国側はこれにも断固、抗議します。その上で、国内で規格を作りました。自分たちで、きれいに文字を並べた規格です。そしてそれをUnicode側に提出。Unicode側はそれを全面的に認め、Unicode2.0では、韓国側の要望を全て反映した位置にハングルが置かれることとなりました。

2014-12-10 23:37:00
@LGRikka

⑫これがいわゆる『ハングルの大移動』だそうで。Unicodeの、「ここに入れて」という要望まで通ることはなかなかないそうです。コミケで言うなら「壁際○番目にして」っていう要望が通ったようなものだと考えれば分かりやすいかも。スペースをもらうだけでなく、位置まで指定できたということ。

2014-12-10 23:37:08
@LGRikka

⑬と、いうわけで、クメールと同じような「文字の順番バラバラ事件」に遭遇したものの、国内で規格を整備し、要望を出したおかげで、ウンコードにならず理想的な文字コードを手に入れたハングルでありました。あといくつか、捕捉情報もつぶやきます。

2014-12-10 23:37:39
@LGRikka

⑭今回、ハングルについて抗議を入れたり規格を作ったりしたのは韓国でしたが、中国の文字コードにも、ハングルが入ったものがあります。中国の一部の地域には、朝鮮の民族が住んでいるからです。とはいえ中国側は、ハングル問題に関しては「韓国頑張って、どうぞ」くらいの姿勢だそうな。

2014-12-10 23:37:47
@LGRikka

⑮あと、その後の韓国ですが、韓国はハングル大移動で「これはイケる」と思ったのか、自分のところの文字を入れてほしいときはバンバン国内規格を作るようになったとか。見せてもらいましたが、記号付きの漢字とかばっかりで、「それは、うーん、どうなんだ」っていうものが多かったです。

2014-12-10 23:37:56
@LGRikka

⑯とはいえ現在、Unicodeに新しい文字を入れたいときには、辞書なり書籍なり、「根拠」が必要だそうなので、文献が少ない古い文字のたぐいになると、こうやって国内規格をつくり、「国内規格にもなってるんだから要りますよ!!」ってごり押しするくらいしかないのかもね、という話でした。

2014-12-10 23:38:04
@LGRikka

ちなみに一番面白いのが北朝鮮の文字コード。なんと、「金日成」「金正日」専用の文字コードがあるのだ!!下々のキムと将軍様のキムは、同じ字でありながら、文字コード単位で区別されているのである!!!! pic.twitter.com/coXebbKaMc

2014-12-10 23:40:53
拡大
@LGRikka

「北朝鮮の技術で、文字コード単位で分けようとなると、パソコンに『キム』キーがあるんちゃうかな……」っていう話が一番おもしろかったですね。タテに並んだ「キム」「ジョン」「イル」キーを考えただけで面白いです。

2014-12-10 23:42:57
@LGRikka

これまとめてたら完全に身支度のタイミングを逃した。明日バイトなのにも関わらず。

2014-12-10 23:44:53
わっしー 왓시 @xhioe

完成型ハングル、Unicode内で見ると占める領域がかなり膨大で、いいのかこれって感じだけど、テキストデータの容量の観点から見ると完成型から組み合わせ型にした途端に容量がドカッと増える問題もあるんだよなあ。どっちがいいのかね。

2014-12-10 23:47:37
小熊善之 @0guma

戦前の活版には「天皇」と合体して分割不能にした活字があったと聞くが、まこと、北朝鮮は大日本帝国の忌み子だのう。

2014-12-11 09:59:08
狩野宏樹 @KAN0U

@0guma 誤植防止のため「天皇陛下」4字連字を作った新聞社もあったと聞きますが、金日成金正日(本当はハングル)の6字は大きくて太い字で印字するそうですから、誤植防止とは別の意味もあるようです。むしろ擡頭平出といった皇帝に関する東アジア漢字文化圏の伝統的表記の継承と見るべきかも

2014-12-11 12:16:44
@Searcholic_jp @searcholic_jp

@LGRikka 常用されるハングルは当時の韓国工業規格の約2600字で、それがあれば日常生活には困らないそうです。でも、論理上あり得る組み合わせが約11000あり、それもコード化しろとなったのが大移動につながる話ですね。因に古ハングルという歴史的な字母もあります。

2014-12-11 12:51:58
小熊善之 @0guma

ハングル大移動の後の話になるけど、文字化けするハングルがあると言われて調べたら、KS X 1001にはない組合せの字が使われていた、なんて事例があった。それが「오구리 슌(小栗旬)」で、本来の韓国語にはない音でも、外来語の表記で使われる可能性があるんだな、と得心した次第。

2014-12-11 12:54:58
ginga 釋道哲 @ginga_station

「連字」は誤植防止というよりも、速さが問われる新聞社において頻出語句、特異語句をあらかじめ用意する、という意味のほうが大きいです。「会社」「政府」「東京」「函館」などなど。RT @KAN0U: @0guma 誤植防止のため「天皇陛下」4字連字を作った新聞社もあったと聞きますが、

2014-12-11 13:03:23