青空文庫の入力用文字集合を改めて考える

@wakufactoryさんの青空文庫の漢字使用頻度数統計から、青空文庫の入力文字の同定をJIS X 0208:1997ベースから拡張すべきでは,という議論が出ました。
29
前へ 1 ・・ 3 4 次へ
小形克宏 @ogwata

規格の増補にともなう非互換がどのような影響を与えるのか、貴重な証言だと思います。厳粛に受けとめるべきですね。 RT @aobeka: .@ogwata 知ったときは、泣きました。

2013-04-11 10:35:40
小熊善之 @0guma

@ogwata @aobeka 結局、ISO 2022で78/83JISが別エスケープを得たように、バージョンを明示できる文字コードが必要、という結論に……。

2013-04-11 10:44:23
小形克宏 @ogwata

@0guma まあ、それはISO/IEC 2022の枠組みの話しなので、Unicodeに置き換えると、ユーザのレパートリを識別する符号を創設するということでしょうけど…ちょっとうまくイメージできないなあ。 @aobeka

2013-04-11 10:51:56
小熊善之 @0guma

@ogwata Unicode/ISO 10646は記述言語の安定性・固定性を無条件の前提として高く見積もり過ぎている嫌いがあるんじゃないか、というのが最近の私の考えです。彼らが想定しているより、記述言語は不安定なのではないか、と。 @aobeka

2013-04-11 10:54:08
狩野宏樹 @KAN0U

@ogwata @aobeka 104文字の適用除外の原因となった「6.6.3 漢字の字体の包摂規準」のc)に挙げられた、包摂規準を適用しない面区点位置(具体的には、常用漢字表で括弧内別掲の康煕字典体+人名用漢字許容字体でX0208では包摂されていた物)には特有の問題があります。

2013-04-11 12:06:34
狩野宏樹 @KAN0U

これらの追加文字には包摂規準は適用されないのですが、JIS X0208:1997から存在した包摂規準の適用除外とは異なる概念で、1)〜199)の包摂規準を一切適用しないので、個別の包摂規準ごとに定められた従来の適用除外とは別の名前で呼ぶのが適切でしょう(以下「包摂除外」と仮称)。

2013-04-11 12:09:32
狩野宏樹 @KAN0U

包摂除外文字が104字追加されたのに伴い、対応する既存の面区点位置には、6.6.3 b)の「他のいずれかの面区点位置の漢字までも包摂するような適用を行ってはならない」という規定により新たな適用除外が自動的に加わりましたが、それらの適用除外の効果は字体衝突を禁じるだけに留まります。

2013-04-11 12:14:34
狩野宏樹 @KAN0U

青空文庫がJIS X 0208の包摂規準を厳密に適用してきたのと同じレベルでJIS X 0213の包摂規準に従ったとしたら何が起こるか、具体的な例に従って見てみましょう。

2013-04-11 12:15:58
狩野宏樹 @KAN0U

例えば、「響」の旧字体で、郷の真ん中が皀になっている字形はJIS X 0213で符号化可能ですが、1-93-86の「響」ではなく、1-22-33の「響」に包摂規準153が適用された字形と見なして「響」を入力しなければなりません。

2013-04-11 12:18:37
狩野宏樹 @KAN0U

4画目の丿が一になっただけで新字体の「響」の包摂字形となってしまいます(包摂規準153に挙げられているので)。一方、「音」の第1画が横棒になる違いはデザイン差扱いで「響」のままでいい。常識的に新字体だったら「響」、旧字体だったら(細部の違いはあれ)「響」という訳にいかないのです。

2013-04-11 12:22:29
野口英司 @agtc

@KAN0U うーん、となると包摂規準はいったい何のためにあるのかわからなくなりますね。

2013-04-11 12:24:24
狩野宏樹 @KAN0U

同様に、著や薰の草冠が4画だったら著や薫になるし、懲の山一の下が𡈼でなく王や壬ならば懲の包摂字形となるし… こんな複雑怪奇なルールをボランティアの工作員からなる青空文庫で運用することは不可能でしょうし、細かすぎて底本で判別不能な場合も多いでしょう(特に活版で刷った戦前の本では)。

2013-04-11 12:31:36
狩野宏樹 @KAN0U

@agtc 包摂除外の追加文字は単に自分の名前を戸籍どおりに出したいという向きには重宝されたかと思いますが、青空文庫のような過去の文献をちゃんと電子化しようというプロジェクトにとっては全く何の利益にもならない物だったと思います。法務省民事局も迷惑なものをねじ込んでくれたものです。

2013-04-11 12:35:50
貍人鳥(小池咊夫) @koikekaisho

@agtc @kan0u 響に関しては、IVSで対応するしかなくなっていますね。康熙別掲追加字は、常用漢字表の「いわゆる康熙字典体」を確実に符号化するためのものであり、「一般の字体の揺れを含んだ漢字」は0208で符号化できるというのがJISの互換性を重視した立場ですから。

2013-04-11 13:03:18
貍人鳥(小池咊夫) @koikekaisho

@agtc @kan0u 説說のような問題も発生するので、BMPなら大丈夫とは必ずしも言えませんが…

2013-04-11 13:07:48
wakufactory 🍥𝕏 @wakufactory

しかし点のありなしとか横棒か斜めかという類形なら包摂するのもわかるけど、日と月って別モンじゃん。なんで包摂していいという判断をしたんだろうか。

2013-04-11 19:57:06
ıɥɔıɐʇ ɐʇɐqɐʍɐʞ @kawabata

@wakafactory さんのまとめた青空文庫の外字で、UCSですでに符号化されているものについて @jtshinentai さんから情報提供を受けたので、http://t.co/Jhl8ulOsQw にまとめました。どの外字注記が符号化されている(かも)か、参考になれば。

2013-04-11 22:18:09
ıɥɔıɐʇ ɐʇɐqɐʍɐʞ @kawabata

@wakufactory なお、UCSに符号化されていない青空文庫の外字注記は、 GlyphWikiにて http://t.co/GG3KKfdenP でまとめています(古いですが)。Wikiですので、関心があれば、グリフの作成や表への追加・編集ができればと思います。

2013-04-11 22:20:26
狩野宏樹 @KAN0U

@wakufactory 大と犬も別字ですが、器・戻などの部分字形では包摂するわけで、基本的には文字全体で判断されます。間の場合、澗(78では㵎)や燗(78の4刷までは𤏐)などの字形の揺れを追認するためには欠かせない包摂規準です。単独でも異体字なので排除する理由が無かったのでは。

2013-04-11 22:29:03
狩野宏樹 @KAN0U

@kawabata ISO/IEC 10646 の Annex S を拡張した網羅的なデータってどこかに公開されてたりします? 欲しいのは、JIS X 0208やX 0213で包摂されている字体差が、UCSでは複数のコードポイントに符号化されている物のリストなんですけど。

2013-04-11 22:33:33
ıɥɔıɐʇ ɐʇɐqɐʍɐʞ @kawabata

@KAN0U うーん、思っているものと違うかもしれないけど、 http://t.co/cPqEkgTSOM の IRG N1918 みたいなのはどうでしょうかね?ちょっと今からでかけるので、返事は遅くなるかもしれませんです・・・

2013-04-11 22:36:25
wakufactory 🍥𝕏 @wakufactory

@kawabata @jtshinentai おお、ありがとうございます。これこちらでDB化してみるのに使わせていただいてよいでしょうか。

2013-04-11 22:39:41
wakufactory 🍥𝕏 @wakufactory

@KAN0U なるほど。結局文字としては包摂対象だけど、人名で使ってるから分けたいというわがまま(?)問題なわけですね。ここは悩ましいところ。

2013-04-11 22:41:57
貍人鳥(小池咊夫) @koikekaisho

0208の区点番号をUnicodeスカラ値に差し替えて、携帯メールの話を絵文字とAndroidの話に差し替えて、IVSの話を盛って、仮名の異体のところを増補して…頭異体

2013-04-12 18:22:17
tomo.(むにゃむにゃ) @MnjaMnia

(包摂規準が何故重要かというと、それが、現状、漢字のコードポイントのセマンティクスを定義するものだからなんだけど、このセマンティクスは born digital な電子テキストの場合意識されづらいというのはあるのかも。)

2013-04-12 23:29:47
前へ 1 ・・ 3 4 次へ