更新 2013年1月7日作成 2012年12月27日

Unicodeがこの10年で普及して…

漢字の話とアラビア文字／インド系文字の話が混在してすみません。現在Unicodeは実用されている文字をほとんど符号化して、新規の追加文字は昔の文字が大きな比重を占めています。複雑な用字系の表示環境も整って特殊絵文字で皆遊んでいる。しかし10年ほど前には全然状況は違っていたわけで……。

Unicode

KAN0U
18408
3
4
59
13

前へ 1 2 3 次へ

小形克宏 @ogwata

今やISO/IEC 10646（UCS）は漢字だけで75,000字を上回る。そんな中、UCSはどんな文字を収録すべきか？　古漢字（Old Hanzi）計画の挫折や、さきほどの説文小篆の件を省みるに、課題になるのは文字を必要とする専門家と符号化の専門家のマッチングなのかもね。

2012-12-27 17:51:01

小形克宏 @ogwata

符号化の専門家は符号化のことは詳しくても、対象となる文字の専門家ほど詳しくはない。一方で、文字の専門家は符号化のことは詳しくない。したがって、「符号化するとどういうメリットがあるのか」が共有化されづらい。

2012-12-27 17:52:51

小形克宏 @ogwata

関連して思い出すのは、1999年の12月か2000年の1月、ある外資系コンピュータメーカが主催した、英語、ロシア語、アラビア語その他の翻訳者をあつめ、どのようにPCを使っているかというシンポジウム。そこでは翻訳者毎に細かなテクニック（ハック的な裏技の連続！）が開陳されていた。

2012-12-27 17:57:38

小形克宏 @ogwata

OS Xはもちろん、Windows XPよりも前の時代。よく覚えているのは「最近Unicodeって聞くけど、そんなの不要」という声「しか」なかったこと。ぼくはうっかり「Unicodeが一般的になれば、今日述べられたことは一挙に解決するのでは」と質問して、吊し上げになりかけました。

2012-12-27 18:01:20

小形克宏 @ogwata

もう一つ印象的だったのは、そのようにUnicode不要論で占められていたセミナーだったのに、主催者はニコニコ笑いながらそれを眺めていたこと。じつは、このセミナーを主催した「外資系コンピュータメーカ」とはアップルだったのです。

2012-12-27 18:03:40

Kiyonori Nagasaki @knagasaki

アラビア語等はレンダリングの仕組みも用意されないといけなかったので、この言い方の含意するところがそもそも理解されにくかったでしょうね。 RT @ogwata 「Unicodeが一般的になれば…

2012-12-27 18:05:47

小形克宏 @ogwata

推測でしかありませんが、おそらくアップルのセミナー企画の意図は、翻訳者の実情収集だったのでしょう。つまり、ユーザーがその時点でUnicodeについてどう思っていようとまったく無問題で、実情に合った形で流通しさえすれば、自然に不要論は終息する。

2012-12-27 18:09:51

小形克宏 @ogwata

そうなんですよね、問題はそこ。RT @knagasaki: アラビア語等はレンダリングの仕組みも用意されないといけなかったので、この言い方の含意するところがそもそも理解されにくかったでしょうね。 RT @ogwata 「Unicodeが一般的になれば…

2012-12-27 18:10:50

小形克宏 @ogwata

つまり、符号化の専門家のビジョンは、文字の専門家にとって非常に分かりづらい。だけど、そこが分からないと符号化の必要性も伝わらない。伝わらなければ専門家の援助は得られず、当然符号化もできない。そういうアンマッチングがあるのかなと思いました。

2012-12-27 18:13:19

小形克宏 @ogwata

だけど、十数年前ならともかく、漢字だけで75,000字も収録された現状では、逆に「この文字が収録されると、こんなことができる」が示しづらいのも確か。でも、そこをきちんとやらないと、ゴミを増やすことにしかならない。そういう問題だと思います。

2012-12-27 18:17:19

小形克宏 @ogwata

まあ、IDS（Ideographic Description Characters）のような例もありますが。今でこそ川幡さんや守岡さんのご尽力により「難読漢字の記述法」として重宝されるようになりましたが、彼等が再発見する前は、中国人が提案したまま誰も使わない放置プレーの字でした。

2012-12-27 18:22:54

Kiyonori Nagasaki @knagasaki

直近では梵字の件がまさにそういう状態だったかと。今、皆さんにご協力いただいて修正提案文書作成中ですがうまくいくかどうか。 RT @ogwata アンマッチングがあるのかなと思いました。

2012-12-27 18:36:01

小形克宏 @ogwata

そうでしたか。RT @knagasaki: 直近では梵字の件がまさにそういう状態だったかと。今、皆さんにご協力いただいて修正提案文書作成中ですがうまくいくかどうか。 RT @ogwata アンマッチングがあるのかなと思いました。

2012-12-27 18:37:34

小形克宏 @ogwata

@knagasaki たぶん、そういうアンマッチングの解決策として最適手は、その文字の専門家が自分で符号化を提案することだと思います。永崎さん達の大正新修大蔵経のプロジェクトは、その先駆けともなるものなので、大変でしょうけれどぜひ頑張ってください！

2012-12-27 18:40:00

Kiyonori Nagasaki @knagasaki

Unicodeが一般化したことで、日本語環境でも、アラビア語の基本字形のコードを左から右に並べたテキストファイルがあれば勝手に表示字形に直してきれいに表示してくれるわけですが、当時それを説明するのは相当難しかったのではと。 RT @ogwata そうなんですよね、問題はそこ。

2012-12-27 18:53:53

Kiyonori Nagasaki @knagasaki

そういえば、MSもアップルもオープンソースの人々も同じ文字コードを使って同じようなレンダリング手法を採用してくれるなんていうことが少し想像しにくかったかもしれない。

2012-12-27 18:56:02

Tetsuo Sakaguchi @tsaka1

@knagasaki @ogwata ずっと悩んでいる先生がいて「アラビア(ヘブライも)文字の文字コードは左から右なの？」と、私は「いや、文字コードは読む順にファイルの先頭から並んでいます。ファイルには左右はありません。表示の時にどう並べるかが違うだけです」となんど説明したか。。

2012-12-27 19:09:07

Tetsuo Sakaguchi @tsaka1

まぁ、現代のほとんどのOSが採用している「1バイト＝1レコード」なファイルの話なんだけど:-)。

2012-12-27 19:10:15

Tetsuo Sakaguchi @tsaka1

@tsaka1 汎用機の「Nバイト＝1レコード」なファイルシステムに慣れている人だから余計に混乱したのか？？。いや、その辺はわからないなぁ。。

2012-12-27 19:11:00

狩野宏樹 @KAN0U

@knagasaki 知ってる人ほどそう考える、というか今の人には当時の人にとって現在の姿がどれだけ非現実的だったか、逆に想像困難なんでしょうね。例えば、日曜のJAETでの上地さんの発表で日本語環境で中国語を無理やり扱う技術がロストテクノロジー化していることが判明しましたし。

2012-12-27 19:11:13

Kiyonori Nagasaki @knagasaki

確かにそうですね。 RT @tsaka1 @knagasaki @ogwata 文字コードは読む順にファイルの先頭から並んでいます。ファイルには左右はありません。

2012-12-27 19:26:41

狩野宏樹 @KAN0U

@ogwata @knagasaki 永崎さんは文字だけでなく符号化と表示処理の専門家でもあるのでマッチング不要な方では？梵字のような結合文字処理は提案前から符号化専門家との密接な協力が不可欠だと思います（クメール文字の失敗について技術的な詳細まで説明した本を誰か書いてほしい）

2012-12-27 19:28:50

Kiyonori Nagasaki @knagasaki

でも梵字の件はかなり難しくて、むしろ仲介者として動いてます。クメール文字の件は短い物をいくつか読みましたが詳しく知りたいですね。 RT @KAN0U @ogwata @knagasaki 永崎さんは文字だけでなく符号化と表示処理の専門家でもあるのでマッチング不要な方では？

2012-12-27 19:33:10

Kiyonori Nagasaki @knagasaki

現在の符号化提案に「問題があるっぽい」ことには気づけましたが、そこから先、それが本当に問題なのか、具体的にはどこが問題なのか、ということは梵字の専門家の先生方と川幡さんにそれぞれかなり突っ込んでおうかがいして話をまとめて…という感じで進んでます。 @KAN0U @ogwata

2012-12-27 19:36:07

tomo.（むにゃむにゃ） @MnjaMnia

（（ある意味、現代漢字もそうだと思うけど）先秦時代の文字の場合、やっぱ文字だけ見ててもだめで、テキストとしての視点なしに考えないとだめだな。））

2012-12-27 20:27:43

前へ 1 2 3 次へ

いま話題のタグ