Unicodeがこの10年で普及して…
今やISO/IEC 10646(UCS)は漢字だけで75,000字を上回る。そんな中、UCSはどんな文字を収録すべきか? 古漢字(Old Hanzi)計画の挫折や、さきほどの説文小篆の件を省みるに、課題になるのは文字を必要とする専門家と符号化の専門家のマッチングなのかもね。
2012-12-27 17:51:01符号化の専門家は符号化のことは詳しくても、対象となる文字の専門家ほど詳しくはない。一方で、文字の専門家は符号化のことは詳しくない。したがって、「符号化するとどういうメリットがあるのか」が共有化されづらい。
2012-12-27 17:52:51関連して思い出すのは、1999年の12月か2000年の1月、ある外資系コンピュータメーカが主催した、英語、ロシア語、アラビア語その他の翻訳者をあつめ、どのようにPCを使っているかというシンポジウム。そこでは翻訳者毎に細かなテクニック(ハック的な裏技の連続!)が開陳されていた。
2012-12-27 17:57:38OS Xはもちろん、Windows XPよりも前の時代。よく覚えているのは「最近Unicodeって聞くけど、そんなの不要」という声「しか」なかったこと。ぼくはうっかり「Unicodeが一般的になれば、今日述べられたことは一挙に解決するのでは」と質問して、吊し上げになりかけました。
2012-12-27 18:01:20もう一つ印象的だったのは、そのようにUnicode不要論で占められていたセミナーだったのに、主催者はニコニコ笑いながらそれを眺めていたこと。じつは、このセミナーを主催した「外資系コンピュータメーカ」とはアップルだったのです。
2012-12-27 18:03:40アラビア語等はレンダリングの仕組みも用意されないといけなかったので、この言い方の含意するところがそもそも理解されにくかったでしょうね。 RT @ogwata 「Unicodeが一般的になれば…
2012-12-27 18:05:47推測でしかありませんが、おそらくアップルのセミナー企画の意図は、翻訳者の実情収集だったのでしょう。つまり、ユーザーがその時点でUnicodeについてどう思っていようとまったく無問題で、実情に合った形で流通しさえすれば、自然に不要論は終息する。
2012-12-27 18:09:51そうなんですよね、問題はそこ。RT @knagasaki: アラビア語等はレンダリングの仕組みも用意されないといけなかったので、この言い方の含意するところがそもそも理解されにくかったでしょうね。 RT @ogwata 「Unicodeが一般的になれば…
2012-12-27 18:10:50つまり、符号化の専門家のビジョンは、文字の専門家にとって非常に分かりづらい。だけど、そこが分からないと符号化の必要性も伝わらない。伝わらなければ専門家の援助は得られず、当然符号化もできない。そういうアンマッチングがあるのかなと思いました。
2012-12-27 18:13:19だけど、十数年前ならともかく、漢字だけで75,000字も収録された現状では、逆に「この文字が収録されると、こんなことができる」が示しづらいのも確か。でも、そこをきちんとやらないと、ゴミを増やすことにしかならない。そういう問題だと思います。
2012-12-27 18:17:19まあ、IDS(Ideographic Description Characters)のような例もありますが。今でこそ川幡さんや守岡さんのご尽力により「難読漢字の記述法」として重宝されるようになりましたが、彼等が再発見する前は、中国人が提案したまま誰も使わない放置プレーの字でした。
2012-12-27 18:22:54直近では梵字の件がまさにそういう状態だったかと。今、皆さんにご協力いただいて修正提案文書作成中ですがうまくいくかどうか。 RT @ogwata アンマッチングがあるのかなと思いました。
2012-12-27 18:36:01そうでしたか。RT @knagasaki: 直近では梵字の件がまさにそういう状態だったかと。今、皆さんにご協力いただいて修正提案文書作成中ですがうまくいくかどうか。 RT @ogwata アンマッチングがあるのかなと思いました。
2012-12-27 18:37:34@knagasaki たぶん、そういうアンマッチングの解決策として最適手は、その文字の専門家が自分で符号化を提案することだと思います。永崎さん達の大正新修大蔵経のプロジェクトは、その先駆けともなるものなので、大変でしょうけれどぜひ頑張ってください!
2012-12-27 18:40:00Unicodeが一般化したことで、日本語環境でも、アラビア語の基本字形のコードを左から右に並べたテキストファイルがあれば勝手に表示字形に直してきれいに表示してくれるわけですが、当時それを説明するのは相当難しかったのではと。 RT @ogwata そうなんですよね、問題はそこ。
2012-12-27 18:53:53そういえば、MSもアップルもオープンソースの人々も同じ文字コードを使って同じようなレンダリング手法を採用してくれるなんていうことが少し想像しにくかったかもしれない。
2012-12-27 18:56:02@knagasaki @ogwata ずっと悩んでいる先生がいて「アラビア(ヘブライも)文字の文字コードは左から右なの?」と、私は「いや、文字コードは読む順にファイルの先頭から並んでいます。ファイルには左右はありません。表示の時にどう並べるかが違うだけです」となんど説明したか。。
2012-12-27 19:09:07@tsaka1 汎用機の「Nバイト=1レコード」なファイルシステムに慣れている人だから余計に混乱したのか??。いや、その辺はわからないなぁ。。
2012-12-27 19:11:00@knagasaki 知ってる人ほどそう考える、というか今の人には当時の人にとって現在の姿がどれだけ非現実的だったか、逆に想像困難なんでしょうね。例えば、日曜のJAETでの上地さんの発表で日本語環境で中国語を無理やり扱う技術がロストテクノロジー化していることが判明しましたし。
2012-12-27 19:11:13確かにそうですね。 RT @tsaka1 @knagasaki @ogwata 文字コードは読む順にファイルの先頭から並んでいます。ファイルには左右はありません。
2012-12-27 19:26:41@ogwata @knagasaki 永崎さんは文字だけでなく符号化と表示処理の専門家でもあるのでマッチング不要な方では? 梵字のような結合文字処理は提案前から符号化専門家との密接な協力が不可欠だと思います(クメール文字の失敗について技術的な詳細まで説明した本を誰か書いてほしい)
2012-12-27 19:28:50でも梵字の件はかなり難しくて、むしろ仲介者として動いてます。クメール文字の件は短い物をいくつか読みましたが詳しく知りたいですね。 RT @KAN0U @ogwata @knagasaki 永崎さんは文字だけでなく符号化と表示処理の専門家でもあるのでマッチング不要な方では?
2012-12-27 19:33:10現在の符号化提案に「問題があるっぽい」ことには気づけましたが、そこから先、それが本当に問題なのか、具体的にはどこが問題なのか、ということは梵字の専門家の先生方と川幡さんにそれぞれかなり突っ込んでおうかがいして話をまとめて…という感じで進んでます。 @KAN0U @ogwata
2012-12-27 19:36:07((ある意味、現代漢字もそうだと思うけど)先秦時代の文字の場合、やっぱ文字だけ見ててもだめで、テキストとしての視点なしに考えないとだめだな。))
2012-12-27 20:27:43