まとめの限定公開に「リンク限定」が追加されました。URLを伝えてまとめを共有しよう!

Unicode2.0「ハングル大移動」の経緯

六花 (@LGRikka) さんによる、おそらく日本一内容の濃い文字コード史の授業のレポートです。
Unicode ハングル
16254view 11コメント
37
@LGRikka
①さて、遅くなりましたが、ふたたび自分の備忘録として、『ハングルをUnicodeに入れる際に起きた諸問題』についてまとめておこうと思います。前回はクメール文字についてつぶやきましたが、それについては他の方がまとめてくださいました。→ togetter.com/li/752547
@LGRikka
②クメール文字の場合は、カンボジアに「相談すべき上の機関」がなく、「カンボジア在住の学者」もいない状況で、”外国人” たちがクメール文字を整理したことにより、いろいろな問題が起こったわけですが、ハングルの場合は、韓国政府が頑張ったおかげで、まったく違った展開を見せました。
@LGRikka
③まずは、ハングルの特徴から見てみましょう。ハングルは、見たことがある方も多いかと思いますが、ひとつの文字がいくつかのパーツから成り立っています。→ kajiritate-no-hangul.com/kana.html
@LGRikka
④よってハングルを文字コード化する場合には、(A)各パーツを収録しておいて、組み合わせて1文字を表現する方法 と、(B)全ての組み合わせを一覧表で収録する方法 の二つが考えられます。ひらがなで説明すると、(A)は「は」+「半濁点」で「ぱ」を生成する方式で、(B)はそのまんま収録。
@LGRikka
⑤実際、韓国では、(A)(B)両方のパターンが作られ、使われていたそうです。一覧表パターンの場合だと、漢字も収録されていました。(時期に酔って漢字を使ったり使わなかったりするのは、韓国の歴史とも関わりがあるようですが、そこらへんは勉強不足です。すみません。)
@LGRikka
⑥問題が起こったのはwindows95発売時。このOSには、それまで韓国で使われていた文字コードのいずれでもなく、Microsoftが作ったUnified Hangul Code(UHC)なる、謎の文字コードが積まれていました。イヤな予感がしてきますね。
@LGRikka
⑦このUHCがどのような問題を抱いていたか、それは、大雑把に言えば、「文字の順番がバラバラだった」ことでした。途中からは、既存の文字コードをそのまま移す形で作られていたのですが、それ以外の「すきま」に、入らなかった文字を、グッチャグチャに入れてしまったのです。
@LGRikka
⑧当然、韓国政府はブチ切れ。なんじゃこりゃー!ということになり、Microsoft潰れろ並の問題になったそうです(実際に見てきたわけではないですが)。これを受けて、Microsoft側はやらかし事案を認め、「UHCではファイルの保存ができない」ようになり、事なきを得ました。
@LGRikka
⑨さて、UHC事件はこれにて収束したのですが、Unicode1.0はどうだったのでしょうか。Unicode1.0で、ハングルに割り当てられたスペースはおよそ2600字。ちなみに、ハングルの全パターンは11000字。全 然 足 り な い 。
@LGRikka
⑩なんとUnicode1.0は、「この辺に入れてみて、入らなかったやつはテキトーに別のところに入れちゃえ」みたいな設計をしていたのです。イヤな予感がしてきました。UHC問題、再来です。
@LGRikka
⑪韓国側はこれにも断固、抗議します。その上で、国内で規格を作りました。自分たちで、きれいに文字を並べた規格です。そしてそれをUnicode側に提出。Unicode側はそれを全面的に認め、Unicode2.0では、韓国側の要望を全て反映した位置にハングルが置かれることとなりました。
@LGRikka
⑫これがいわゆる『ハングルの大移動』だそうで。Unicodeの、「ここに入れて」という要望まで通ることはなかなかないそうです。コミケで言うなら「壁際○番目にして」っていう要望が通ったようなものだと考えれば分かりやすいかも。スペースをもらうだけでなく、位置まで指定できたということ。
@LGRikka
⑬と、いうわけで、クメールと同じような「文字の順番バラバラ事件」に遭遇したものの、国内で規格を整備し、要望を出したおかげで、ウンコードにならず理想的な文字コードを手に入れたハングルでありました。あといくつか、捕捉情報もつぶやきます。
@LGRikka
⑭今回、ハングルについて抗議を入れたり規格を作ったりしたのは韓国でしたが、中国の文字コードにも、ハングルが入ったものがあります。中国の一部の地域には、朝鮮の民族が住んでいるからです。とはいえ中国側は、ハングル問題に関しては「韓国頑張って、どうぞ」くらいの姿勢だそうな。
@LGRikka
⑮あと、その後の韓国ですが、韓国はハングル大移動で「これはイケる」と思ったのか、自分のところの文字を入れてほしいときはバンバン国内規格を作るようになったとか。見せてもらいましたが、記号付きの漢字とかばっかりで、「それは、うーん、どうなんだ」っていうものが多かったです。
@LGRikka
⑯とはいえ現在、Unicodeに新しい文字を入れたいときには、辞書なり書籍なり、「根拠」が必要だそうなので、文献が少ない古い文字のたぐいになると、こうやって国内規格をつくり、「国内規格にもなってるんだから要りますよ!!」ってごり押しするくらいしかないのかもね、という話でした。
@LGRikka
ちなみに一番面白いのが北朝鮮の文字コード。なんと、「金日成」「金正日」専用の文字コードがあるのだ!!下々のキムと将軍様のキムは、同じ字でありながら、文字コード単位で区別されているのである!!!! pic.twitter.com/coXebbKaMc
 拡大
@LGRikka
「北朝鮮の技術で、文字コード単位で分けようとなると、パソコンに『キム』キーがあるんちゃうかな……」っていう話が一番おもしろかったですね。タテに並んだ「キム」「ジョン」「イル」キーを考えただけで面白いです。
@LGRikka
これまとめてたら完全に身支度のタイミングを逃した。明日バイトなのにも関わらず。
わっしー 왓시 @xhioe
完成型ハングル、Unicode内で見ると占める領域がかなり膨大で、いいのかこれって感じだけど、テキストデータの容量の観点から見ると完成型から組み合わせ型にした途端に容量がドカッと増える問題もあるんだよなあ。どっちがいいのかね。
小熊善之 @0guma
戦前の活版には「天皇」と合体して分割不能にした活字があったと聞くが、まこと、北朝鮮は大日本帝国の忌み子だのう。
狩野宏樹 @KAN0U
@0guma 誤植防止のため「天皇陛下」4字連字を作った新聞社もあったと聞きますが、金日成金正日(本当はハングル)の6字は大きくて太い字で印字するそうですから、誤植防止とは別の意味もあるようです。むしろ擡頭平出といった皇帝に関する東アジア漢字文化圏の伝統的表記の継承と見るべきかも
Searcholic_jp @searcholic_jp
@LGRikka 常用されるハングルは当時の韓国工業規格の約2600字で、それがあれば日常生活には困らないそうです。でも、論理上あり得る組み合わせが約11000あり、それもコード化しろとなったのが大移動につながる話ですね。因に古ハングルという歴史的な字母もあります。
小熊善之 @0guma
ハングル大移動の後の話になるけど、文字化けするハングルがあると言われて調べたら、KS X 1001にはない組合せの字が使われていた、なんて事例があった。それが「오구리 슌(小栗旬)」で、本来の韓国語にはない音でも、外来語の表記で使われる可能性があるんだな、と得心した次第。
ginga @ginga_station
「連字」は誤植防止というよりも、速さが問われる新聞社において頻出語句、特異語句をあらかじめ用意する、という意味のほうが大きいです。「会社」「政府」「東京」「函館」などなど。RT @KAN0U: @0guma 誤植防止のため「天皇陛下」4字連字を作った新聞社もあったと聞きますが、

コメント

くりあ/CLEA-R-NOT-3 @Clearnote_moe 2014年12月11日
北に関しては、そこを誤植したり太字にするのを忘れたりしようものなら関係者の首が飛ぶ(物理)からやっぱり誤植防止の連字なんじゃないのか、という思いがぬぐえないw
くりあ/CLEA-R-NOT-3 @Clearnote_moe 2014年12月11日
将軍様の「金」が別コードなのもそういう太字処理なんかが必要だからと考えると、必然性のある使い分けなんでしょうね。へとヘのように、同じに見えるとしても本質的に別の字だと。
FX-702P @fx702p 2014年12月11日
金正恩氏の「金」は別コードになったんですかね。
狩野宏樹 @KAN0U 2014年12月11日
「⑤の(A)パターン」= KS C 5601-1974、「(B)パターン」=KS C 5601-1987(ハングル2350文字、漢字4888文字を含む)。安岡『文字符号の歴史 欧米と日本編』p.185参照。KS C 5601 は1997年にKS X 1001と改称されています。1974年版の概要についてはWikipediaの「KS X 1001」の「歴史」を参照(コード表は安岡本p.198の図186に載っています)。
nekosencho @Neko_Sencho 2014年12月11日
南北分断以前にコード化されてたとも思えないし、そのへんの南北衝突というか相違というか、そういうのはなかったの?
狩野宏樹 @KAN0U 2014年12月11日
UHC(Codepage 949)の並び順のぐちゃぐちゃぶりは、変換表 http://opensource.apple.com/source/samba/samba-26/source/codepages/CP949.TXT を見るとおわかり頂けるかと思います。使用頻度の高い2350字と残りに分かれているから辞書順でないのはともかく、残りのハングルも細かく分かれて非ハングルと入り交じりながら追加されている。(コード拡張方式は http://www.wdic.org/w/WDIC/UHC を参照)
狩野宏樹 @KAN0U 2014年12月11日
⑪の「きれいに文字を並べた規格」=KS C 5700-1995。安岡本p.234曰く「本来,00003400〜00004DFFにあるべきハングルを,勝手に0000AC00〜0000D7A3に移動して,現代ハングル11172字をすべて収録していたのである(図220)。」翻訳規格にあるまじき荒技。
狩野宏樹 @KAN0U 2014年12月11日
⑫の、『Unicodeの、「ここに入れて」という要望まで通ることはなかなかない』→ 要望が通らなかった例としては、日本のJIS X 0213:2000の括弧つき符号位置があります(詳しくは小形さんの『文字の海、ビットの舟』特別編4 http://internet.watch.impress.co.jp/www/column/ogata/special4.htmを参照。)
狩野宏樹 @KAN0U 2014年12月11日
⑯にあるとおり、今のUnicodeは基本的に文字を加えるには典拠が必要なんですが,こと絵文字に関しては「欲しいから作って」という要望がまかり通る異常事態になっている(某企業の運動によりタコスが追加候補になってたり…)というのは昨日のセミナー http://togetter.com/li/756329 で小形さんが報告されたとおり。こういう今までの紆余曲折があって現在のポリシーがあることを考えると、横紙破りもいいところ。
長 高弘 @ChouIsamu 2014年12月15日
韓国側の主張が通らなかった場合、「日本語で言う50音順に並び換え」なんて処理をハングルでやる場合、エラい事になってた訳なんだろうか??
キタミアキヤ@涼天環 @K_akiya 2016年6月8日
クメール文字は時代的にも苦労があったろうな。内戦終結は何年だっけ。
ログインして広告を非表示にする
ログインして広告を非表示にする