タイ語の組版規則を考える

このまとめの範囲では改行位置の話題に終始してしまいましたが、他にもフォントサイズとか、解らない点はいっぱいあります。
16
あかね @akane_neko

ブログ更新。「JAGATセミナー「電子書籍と日本語組版」」 - ちくちく日記 http://t.co/VPQf52J2

2012-05-09 08:35:36
小形克宏 @ogwata

上手にまとめたなあ。RT @akane_neko: ブログ更新。「JAGATセミナー「電子書籍と日本語組版」」 - ちくちく日記 http://t.co/jeXi5Ejs

2012-05-09 08:46:49
Y.Mihashi | 三橋洋一 @ymihashi

オチはどこに…w RT @akane_neko: ブログ更新。「JAGATセミナー「電子書籍と日本語組版」」 - ちくちく日記 http://t.co/dT2UTlxh

2012-05-09 08:56:59
あかね @akane_neko

@ymihashi あの内容からオチをつけるのはハードル高いっす。っていうか、私のブログお笑い系じゃないんですけど(笑)

2012-05-09 09:03:52
Tokushige Kobayashi @TokKoba

@ogwata @akane_neko ちなみに私の「インド・・・」は実は自分で一番欲しいものが、たとえば、UTF-16のハイフンの後ろで区切っていいかとか、タイ語の改行はどうしたらいいかというようなことを書いた英語でも良いですが組版規則の本が欲しいから・・・

2012-05-09 09:47:32
Tokushige Kobayashi @TokKoba

昔、米国の高名な制作者から、「俺は大学から、数十年間、ずっとドキュメントの仕事をしてるけど、お前のところのFormatterは、米国人なら絶対改行しないところで、改行してるぞ(怒)!」と言われたのがトラウマ・・・(でもUnicodeの仕様が間違ってたんだよ)。

2012-05-09 09:52:29
あかね @akane_neko

@TokKoba @ogwata JLReqの海外版というか、他の言語の組版規則仕様というのは、あまり公開されていないものなのですか?

2012-05-09 09:55:01
Tokushige Kobayashi @TokKoba

@akane_neko @ogwata 英語の本の編集ではChicago Manual, Oxfordのマニュアルなどが有名ですが、組版規則のことはわずかです。米政府印刷局のガイド、EUのガイド、タイ語のガイドなど政府とか団体が作っているのではないでしょうか(記憶・曖昧)

2012-05-09 11:08:54
Tokushige Kobayashi @TokKoba

「お前のところのFormatterは、米国人なら絶対改行しないところで、改行してるぞ(怒)!」については、UnicodeのLine Breaking PropertyのTRを修正してもらい、Formatterを修正するという対応をしました。(一応、念のため補足)

2012-05-09 11:11:34
あかね @akane_neko

@TokKoba タイ語などは日本語ほどのややこしい組版規則ではないのでしょうか?それとも組版規則は色々あるけど、公式な(英語などでの)資料がないということでしょうか?後者だとすると、他国語の開発者が組版ソフトを作るのは大変そうですね @ogwata

2012-05-09 11:47:20
狩野宏樹 @KAN0U

@TokKoba @ogwata @akane_neko タイ語の改行は単語重視だそうですから英語のハイフネーションと同じく辞書に大きく依存してしまうのでしょう。ICUに入っているdata/brkitr/thaidict.txtを見たら26356項目、520KBもありますね…。

2012-05-09 12:53:46
Tokushige Kobayashi @TokKoba

@KAN0U @ogwata @akane_neko ちなみに、タイ語についても、お客さん(ドイツの自動車メーカ)から叱られたことがあります。お前のところのFormatterの改行位置が間違っているので、車のマニュアルが完成しなくて、車を輸出できないぞ、どうしてくれる!って。

2012-05-09 13:03:33
あかね @akane_neko

@TokKoba @KAN0U @ogwata 単語重視ということは単語改行にさえ注意しておけばそれ以上ややこしいルールはない?ディスカッションで、石野氏が「OpenTypeの仕様どおりに実装しただけ」的な発言をされていたのが、そういうものなのかなと不思議だったんです。

2012-05-09 13:37:22
狩野宏樹 @KAN0U

@akane_neko @TokKoba @ogwata ウィドウみたいな高級なルールもあるのかも知れませんが、それについては知りません。むしろ逆に「単語を分けざるを得ないときに、音節の中(子音と母音の間、複合子音の間)で分けてはならない」というルールが問題なのだろうと思います。

2012-05-09 14:12:07
狩野宏樹 @KAN0U

@akane_neko @TokKoba @ogwata 「タイ語のOpenTypeの仕様」と言ったら http://t.co/9EsJspGX しか思いつかないのですが、これはフォント制作上の仕様ですので、組版エンジンが面倒を見るべき改行位置の記述は一言もありません。別の仕様?

2012-05-09 14:23:42
あかね @akane_neko

@KAN0U 私の聞き違いですかねぇ…でもその時も「えっ?Opentypeの?」ってすごく不思議に思ったんですよね OpenTypeじゃなくて違う言葉だったんだろうか…? @TokKoba @ogwata

2012-05-09 14:27:10
狩野宏樹 @KAN0U

@TokKoba 改行位置を強制したい時、どうすればユーザ側で対処できるのでしょうか? 改行されたくない場所にWord Joiner (U+2060) を入れ、単語境界にZero Width Space (U+200B) を入れるような、Unicodeの制御文字は使用可能ですか?

2012-05-09 14:38:56
Tokushige Kobayashi @TokKoba

はい。一般的にはそのようにします。 @KAN0U 改行位置を強制したい時、どうすればユーザ側で対処できるのでしょうか? 改行されたくない場所にWord Joiner (U+2060) を入れ、単語境界にZero Width Space (U+200B) を入れる

2012-05-09 14:46:35
Tokushige Kobayashi @TokKoba

@akane_neko @KAN0U @ogwata k16本人に聞いてみたのですが、あの発言は正確ではないようです。忘れてください。タイ語の組版については多言語組版研究会(http://t.co/HjviCzp3)の第4回、第5回の記録もご参照ください。

2012-05-09 15:08:00
あかね @akane_neko

@TokKoba なるほど、OpenType云々はあんまり関係ないんですね。タイ語の組版も決して簡単なものって訳ではなさそうですね…。(仕様通り実装しただけって発言は謙遜されてたのかな)@KAN0U @ogwata

2012-05-09 15:23:44
小林龍生 @tlk714

ぼくが知る限り、韓国版の素案が進行中、ってだけですね。RT @akane_neko: @TokKoba @ogwata JLReqの海外版というか、他の言語の組版規則仕様というのは、あまり公開されていないものなのですか?

2012-05-09 18:13:51
狩野宏樹 @KAN0U

@TokKoba @p_typo 力任せの辞書引きでなく、TeXで使われているF.M. Liangのアルゴリズム(部分文字列マッチでルール記述)のほうが性能や未知語対応などで効率的ではないかと思って調べたら、もう既にやっている人がいました。http://t.co/7Z1d2M4P

2012-05-09 22:44:21
狩野宏樹 @KAN0U

@TokKoba ちゃんとUnicodeの仕様を実装してくれているのはありがたいですね。改行位置指定はICUやSWATH http://t.co/J31AiQ2O による前処理で対処することができますが、組版エンジンの機能が不足していたらユーザ側ではどうしようもありませんから。

2012-05-09 23:16:11
狩野宏樹 @KAN0U

タイ語の改行位置を前処理フィルタで逐一指定した場合、厳格にやり過ぎて行長より長い単語を作ってしまう可能性に注意する必要がある。先程紹介した論文に抜粋されているコーパスでは37文字(上につく母音記号の類は除く)もある長大な単語の例が見える(本当は複合語で、途中で切れる場所がある筈)

2012-05-09 23:25:19