青空文庫の入力用文字集合を改めて考える

@wakufactoryさんの青空文庫の漢字使用頻度数統計から、青空文庫の入力文字の同定をJIS X 0208:1997ベースから拡張すべきでは,という議論が出ました。
29
富田倫生 @aobeka

@KAN0U @wakufactory @koikekaisho @ogwata ①言い訳。でしょうが、事実関係を報告。 0213で、青空文庫の文字コードを拡張できると期待しました。ふたを開けると、互換包摂に加え104字が適用除外、Shift_JISX0213は参考。

2013-04-10 22:17:00
富田倫生 @aobeka

@KAN0U @wakufactory @koikekaisho @ogwata ②それでも準備は進めようと、包摂規準が変わるものは、底本でどちらなのかメモの作成をお願いしました。ただし必須とまでは踏み込めず、「できれば」という形で。

2013-04-10 22:17:39
富田倫生 @aobeka

@KAN0U @wakufactory @koikekaisho @ogwata ③その時期に作った宮本百合子全集からのものでは、全てにメモが作られており、データベースに記録されています。その後もごく一部ながら、メモ作りは継続しています。

2013-04-10 22:18:03
富田倫生 @aobeka

@KAN0U @wakufactory @koikekaisho @ogwata ④ただ、0213の実装は期待通りには進まず。2004改正で10字が追加。確認作業をやり直さなくてはとなり、いつごろ皆のパソコンで使えるか見通せない中で、準備への熱は冷めました。

2013-04-10 22:18:33
富田倫生 @aobeka

@KAN0U @wakufactory @koikekaisho @ogwata ⑤もしこれから準備再開に踏み切るとして、対象は互換包摂だけで良いのか。KAN0Uさんおっしゃるように、筋としては包摂規準でとどまらず、UCVで間と閒の使い分けまでみるのが良さそうにも思いますが。

2013-04-10 22:19:42
富田倫生 @aobeka

@KAN0U @wakufactory @koikekaisho @ogwata ⑥関連して、青空文庫表示ソフトが多種作られるようになった時期、互換包摂をB側で表示する「書籍互換モード」をお願いしてはと考えたことがあります。ファイルはそのままの、弥縫策ですが。連投御容赦。

2013-04-10 22:21:09
貍人鳥(小池咊夫) @koikekaisho

@aobeka @kan0u @wakufactory @ogwata 青空文庫はJIS X 0213に大きな貢献をしてくれました。しかし、JISの右往左往や文化庁との軋轢、Unicodeの急速な普及は青空文庫に多大な負担をかけることになってしまいました。(続く

2013-04-10 22:49:39
貍人鳥(小池咊夫) @koikekaisho

@aobeka @kan0u @wakufactory @ogwata 承前)文学作品、或いは読み物としては、互換29字も04JIS字体変更も無視して構わないものです。B字体への書き換えとNフォントの使用で、一般書籍と同様の見た目も実現できます。(続く

2013-04-10 22:49:47
貍人鳥(小池咊夫) @koikekaisho

@aobeka @kan0u @wakufactory @ogwata 承前)ただ、青空文庫だからこそ、明治以来の活字字体の揺れを忠実にトレースしたデジタルテキストを実現し得るのではないか(商業出版ではなし得ません)という期待を持ってしまうのでもありますが。

2013-04-10 22:49:53
貍人鳥(小池咊夫) @koikekaisho

2002年の時点で、文化庁とJISの手打ち案は、国としてはX0213を標準とする、というものだった。X0208が事実上の標準であったにも関わらず。それから10年、スマートフォンの爆発的普及により、事実上の標準はBMPに移った。現在は常用漢字すら安定して送受信できない過渡期にある。

2013-04-10 23:06:00
貍人鳥(小池咊夫) @koikekaisho

ま、Androidがサロゲートペアをちゃんとデコード出来るようになればいいだけなのかも。

2013-04-10 23:26:04
貍人鳥(小池咊夫) @koikekaisho

青空文庫に期待ばっかりしてると、「お前も手伝え」と言われそうだな。一応プロの校正者だったし。でも、ザルなので…

2013-04-10 23:41:00
狩野宏樹 @KAN0U

@koikekaisho 私も以前校正待ちの長い作品に手を出したのはいいのですが、長期に亙って手元で抱え込んでしまっていて…。そのうちの一作品は、完成すれば底本より正確なテキストになる予定ですが(その全集本は隣の活字を拾って「眼」が「真」になった誤植が直ってないレベルなので)

2013-04-10 23:51:43
小形克宏 @ogwata

@aobekam ごめんなさい、基本的なことが分かっていません。JIS X 0213における包摂規準の適用除外がなぜ問題になるのでしょう? 適用除外はJIS X 0208が最初、JIS X 0213は増補ですよね。@KAN0U @koikekaisho @wakufactory

2013-04-11 01:26:10
小形克宏 @ogwata

@aobeka 連続ツィートの①に対する質問であります。@KAN0U @koikekaisho @wakufactory

2013-04-11 01:27:02
富田倫生 @aobeka

@ogwata @KAN0U @koikekaisho @wakufactory ①0208の適用除外は踏まえて、青空文庫のファイル作りを始めました。規準72 http://t.co/auIqa8WzZZ はあるけれど顔/顏は適用除外と分かっていたので、区別して作業しました。

2013-04-11 10:01:17
富田倫生 @aobeka

@ogwata @KAN0U @koikekaisho @wakufactory ②そのファイルを先々、0213化しようと目論んでいたら、互換包摂以外に104字を追加で適用除外にするという。同じコードで良いとしてきた、例えば「侮」と「侮」は、これで分離されてしまいます。

2013-04-11 10:01:45
富田倫生 @aobeka

@ogwata @KAN0U @koikekaisho @wakufactory ③すでに0208規準で作ったファイルを、この変更に対応させようとすれば、もう一度底本に戻って、そこにあるのは「侮」「侮」のどちらであるか確認し、決めなければいけなくなったという意味です。

2013-04-11 10:03:11
富田倫生 @aobeka

@ogwata @KAN0U @koikekaisho @wakufactory ④0213化にあたってなにをしなければいけないか、青空文庫の仲間と確認するためにメモを作りました。 http://t.co/7CXUe7XrmE 古いものですが。

2013-04-11 10:03:35
富田倫生 @aobeka

@ogwata @KAN0U @koikekaisho @wakufactory 【訂正】①からは、適用除外についても記載してある http://t.co/1f4UOAjDRz にリンクするべきでした。ごめんなさい。

2013-04-11 10:08:40
小形克宏 @ogwata

@aobeka なるほど、JIS X 0213の適用除外の増補により、それまで準備しておいた作業が無駄になってしまったということですね。たしかにその部分は、JIS X 0208と非互換ですね。@KAN0U @koikekaisho @wakufactory

2013-04-11 10:12:30
小形克宏 @ogwata

JIS X 0213における包摂規準の追加については、たしか家辺勝文さんがJIS X 0208と非互換になるとして警鐘を鳴らしていた。最初これを聞いた時は「そんな細かいこと」と思ったけれど、実際に青空文庫はその犠牲になってしまったわけですね。

2013-04-11 10:15:54
富田倫生 @aobeka

【またまた訂正】JIS X 0208と0213の包摂規準の差に関する連投で対比したかったのは、「1-14-24,(侮),1-41-78,(侮),」です。失礼しました。

2013-04-11 10:23:00
富田倫生 @aobeka

【またまたまた訂正】1-14-24と1-41-78は、safari経由でtwitterに書き込むと、ともに「侮」として表示されてしまうのでした。

2013-04-11 10:27:29
富田倫生 @aobeka

.@ogwata 知ったときは、泣きました。

2013-04-11 10:28:10