「クメール文字とUnicode」補遺
.@KAN0U 「virama modelはKhmerに対しては根拠がない」という主張(N2380R、N2406、N2458等)とその反論(N2385、N2412 std.dkuug.dk/jtc1/sc2/wg2/d… )の言語学的/書記史的妥当性を日本語で解説したものがあると良いですね。
2014-12-03 23:00:50@2SC1815J 現実にViramaが存在することと、符号化におけるViramaモデルの適用可能性は別問題だと思います。脚文字専用の符号位置で符号化するか、virama+非脚文字のシーケンスで符号化するかは等価な筈なので、私はそこに関しては大きな優劣はないと考えます。
2014-12-03 23:50:42@2SC1815J viramaを分けるとデータ容量が増えますが、日本語のSJIS→UTF-8ほどは増えませんし、普通文字と脚文字の両方はキーボードに収まり切らないから、入力する時は「シフトキーを押すと独立字の代わりに脚文字が入る」仕掛けになって、どちらでもキー入力数は同じかと。
2014-12-04 00:01:43@2SC1815J 今調べたいのは、母音の符号化と入力順がカンボジア側提案ではどうなっていたかという点と、現在の仕様で表せない表記が残っていないかです。ベンガル文字のkhanda taとかビルマ文字のkindiの符号化のような、レンダリングモデルの変更は過去にもありましたから。
2014-12-04 00:12:24@KAN0U そうですね、N2380R std.dkuug.dk/jtc1/sc2/wg2/d… にカンボジア側提案のコード表が出ていますが、タイ文字式に入力させたかったのか、デバナガリ方式なのかは分かりませんね。この提案では表現できて、現在の仕様では表せないものがあるのかは気になります。
2014-12-04 00:42:31@MnjaMnia 現行の符号化方式だと、子音字を検索した時にフルサイズの字と脚文字の両方が引っかかるわけですが、これがユーザにとって便利なのか邪魔なだけなのかネイティブの人に聞いてみたいですね。もし子音で終わる接頭辞が存在するなら、両方引っかかった方が便利だろうと思いますが…。
2014-12-04 23:26:08@MnjaMnia twitter.com/khmerlesson/st…では「母音は後から書くのが普通」とうかがいました。ところで、リンク先の「正しくない字体」は三上先生の本に出てきたタイプライター時代の無理やりな文字合成そのもので興味深いですね。今でも印刷物にまでよく見られるとは…。
2014-12-05 12:44:50