青空文庫の入力用文字集合を改めて考える
@KAN0U @wakufactory @koikekaisho @ogwata ①言い訳。でしょうが、事実関係を報告。 0213で、青空文庫の文字コードを拡張できると期待しました。ふたを開けると、互換包摂に加え104字が適用除外、Shift_JISX0213は参考。
2013-04-10 22:17:00@KAN0U @wakufactory @koikekaisho @ogwata ②それでも準備は進めようと、包摂規準が変わるものは、底本でどちらなのかメモの作成をお願いしました。ただし必須とまでは踏み込めず、「できれば」という形で。
2013-04-10 22:17:39@KAN0U @wakufactory @koikekaisho @ogwata ③その時期に作った宮本百合子全集からのものでは、全てにメモが作られており、データベースに記録されています。その後もごく一部ながら、メモ作りは継続しています。
2013-04-10 22:18:03@KAN0U @wakufactory @koikekaisho @ogwata ④ただ、0213の実装は期待通りには進まず。2004改正で10字が追加。確認作業をやり直さなくてはとなり、いつごろ皆のパソコンで使えるか見通せない中で、準備への熱は冷めました。
2013-04-10 22:18:33@KAN0U @wakufactory @koikekaisho @ogwata ⑤もしこれから準備再開に踏み切るとして、対象は互換包摂だけで良いのか。KAN0Uさんおっしゃるように、筋としては包摂規準でとどまらず、UCVで間と閒の使い分けまでみるのが良さそうにも思いますが。
2013-04-10 22:19:42@KAN0U @wakufactory @koikekaisho @ogwata ⑥関連して、青空文庫表示ソフトが多種作られるようになった時期、互換包摂をB側で表示する「書籍互換モード」をお願いしてはと考えたことがあります。ファイルはそのままの、弥縫策ですが。連投御容赦。
2013-04-10 22:21:09@aobeka @kan0u @wakufactory @ogwata 青空文庫はJIS X 0213に大きな貢献をしてくれました。しかし、JISの右往左往や文化庁との軋轢、Unicodeの急速な普及は青空文庫に多大な負担をかけることになってしまいました。(続く
2013-04-10 22:49:39@aobeka @kan0u @wakufactory @ogwata 承前)文学作品、或いは読み物としては、互換29字も04JIS字体変更も無視して構わないものです。B字体への書き換えとNフォントの使用で、一般書籍と同様の見た目も実現できます。(続く
2013-04-10 22:49:47@aobeka @kan0u @wakufactory @ogwata 承前)ただ、青空文庫だからこそ、明治以来の活字字体の揺れを忠実にトレースしたデジタルテキストを実現し得るのではないか(商業出版ではなし得ません)という期待を持ってしまうのでもありますが。
2013-04-10 22:49:532002年の時点で、文化庁とJISの手打ち案は、国としてはX0213を標準とする、というものだった。X0208が事実上の標準であったにも関わらず。それから10年、スマートフォンの爆発的普及により、事実上の標準はBMPに移った。現在は常用漢字すら安定して送受信できない過渡期にある。
2013-04-10 23:06:00@koikekaisho 私も以前校正待ちの長い作品に手を出したのはいいのですが、長期に亙って手元で抱え込んでしまっていて…。そのうちの一作品は、完成すれば底本より正確なテキストになる予定ですが(その全集本は隣の活字を拾って「眼」が「真」になった誤植が直ってないレベルなので)
2013-04-10 23:51:43@aobekam ごめんなさい、基本的なことが分かっていません。JIS X 0213における包摂規準の適用除外がなぜ問題になるのでしょう? 適用除外はJIS X 0208が最初、JIS X 0213は増補ですよね。@KAN0U @koikekaisho @wakufactory
2013-04-11 01:26:10@ogwata @KAN0U @koikekaisho @wakufactory ①0208の適用除外は踏まえて、青空文庫のファイル作りを始めました。規準72 http://t.co/auIqa8WzZZ はあるけれど顔/顏は適用除外と分かっていたので、区別して作業しました。
2013-04-11 10:01:17@ogwata @KAN0U @koikekaisho @wakufactory ②そのファイルを先々、0213化しようと目論んでいたら、互換包摂以外に104字を追加で適用除外にするという。同じコードで良いとしてきた、例えば「侮」と「侮」は、これで分離されてしまいます。
2013-04-11 10:01:45@ogwata @KAN0U @koikekaisho @wakufactory ③すでに0208規準で作ったファイルを、この変更に対応させようとすれば、もう一度底本に戻って、そこにあるのは「侮」「侮」のどちらであるか確認し、決めなければいけなくなったという意味です。
2013-04-11 10:03:11@ogwata @KAN0U @koikekaisho @wakufactory ④0213化にあたってなにをしなければいけないか、青空文庫の仲間と確認するためにメモを作りました。 http://t.co/7CXUe7XrmE 古いものですが。
2013-04-11 10:03:35@ogwata @KAN0U @koikekaisho @wakufactory 【訂正】①からは、適用除外についても記載してある http://t.co/1f4UOAjDRz にリンクするべきでした。ごめんなさい。
2013-04-11 10:08:40@aobeka なるほど、JIS X 0213の適用除外の増補により、それまで準備しておいた作業が無駄になってしまったということですね。たしかにその部分は、JIS X 0208と非互換ですね。@KAN0U @koikekaisho @wakufactory
2013-04-11 10:12:30JIS X 0213における包摂規準の追加については、たしか家辺勝文さんがJIS X 0208と非互換になるとして警鐘を鳴らしていた。最初これを聞いた時は「そんな細かいこと」と思ったけれど、実際に青空文庫はその犠牲になってしまったわけですね。
2013-04-11 10:15:54【またまた訂正】JIS X 0208と0213の包摂規準の差に関する連投で対比したかったのは、「1-14-24,(侮),1-41-78,(侮),」です。失礼しました。
2013-04-11 10:23:00【またまたまた訂正】1-14-24と1-41-78は、safari経由でtwitterに書き込むと、ともに「侮」として表示されてしまうのでした。
2013-04-11 10:27:29