限定公開でまとめを作れば、相互フォローやフォロワー限定でまとめを共有できます!

@aobeka さんの「青空文庫便り」(2012.12.17)

僭越ながらまとめさせていただきました。
ログ 文字コード デジタル化 青空文庫
1041view 0コメント
このまとめをお気に入りにして応援しよう!
0
富田倫生 @aobeka
【青空文庫便り】①データベースと公開サイトを、Unicodeに切り替えようと思っている。変えることで http://t.co/WxsYegVuhttp://t.co/H46Ouo6a の外字注記を文字に置き換える。ばらついているローマ数字の表現も、Ⅰ、Ⅱで統一したい。
富田倫生 @aobeka
【青空文庫便り】②これまで、青空文庫の作品ファイルはShift_JIS、公開サイトは、使える文字のより多いEUC-JPで作ってきた。永井荷風「濹東綺譚」の一字目は、前者ではややこしい外字注記で表すしかない。だが、後者なら「濹」で行ける〝はず〟だった。
富田倫生 @aobeka
【青空文庫便り】③作品ファイルの文字コードを拡張すれば、そこでも外字の問題を減らせる。だが、細かな字体差で文字を区別するか否か、これまで「鴎」で入れていたものを「鷗」と「鴎」に区別するのか決めて、公開済みも含めてファイルを作り直せるかという問題があり、決断できていない。
富田倫生 @aobeka
【青空文庫便り】④それでも援軍を得て、作品中の外字注記は目立たなくなった。表示ソフトの多くが、注記を文字に置き換えてくれたからだ。ならば、図書カードやリストはせっかくEUC-JPなのだから、置き換えられるものは文字にと考えた。永井荷風は「濹」で行こうと。
富田倫生 @aobeka
【青空文庫便り】⑤ところが、注記を文字に置き換え始めると、すぐに問題が生じた。青空文庫と外部のシステム、表示ソフトを繋ぐ情報のパイプとなれと、CSVを提供している。 http://t.co/9c0UVif9 これが一部の文字の置き換えで壊れ、とたんに外部システムに迷惑をかけた。
富田倫生 @aobeka
【青空文庫便り】⑥試行錯誤したが、原因がつかめない。「データベースと公開サイト全体を、Unicode化するしかないのか」と課題だけは認識し、注記の文字への置き換えは、中途で打ち切った。「濹」は使えたが、ローマ数字は、「2[#「2」はローマ数字、1-13-22]」のまま残した。
富田倫生 @aobeka
【青空文庫便り】⑦先送りしてきた、データベースと公開サイトのUnicode化を、進めようと思っている。CSVはまず、UTF-8で作り、出力する。そのうち、JIS X 0208にない文字を数値文字参照に置き換えたShift_JIS版も、これまで通り、並行して提供するつもりだ。
富田倫生 @aobeka
【青空文庫便り】⑧この変更で、公開サイトからは外字注記をかなり排除できる。ローマ数字表記のばらつきは、外部システムにも悪影響を与えてきたが、そこも改善できるのではと期待している。ただし、今回の変更では、包摂規準の見直しは行わない。森鴎外は、変更後も鴎外のままとする。
富田倫生 @aobeka
【青空文庫便り】⑨データベースと公開サイトのUnicode切り替えに先立っては、CSVのShift_JIS版とUTF-8版をサンプル提供し、外部システムの運用ご担当に、確認と検討をお願いしたい。準備はかなり進めた。遠い先の話ではない。その節はどうぞ、よろしくお願いいたします。
ログインして広告を非表示にする
ログインして広告を非表示にする