青空文庫の入力用文字集合を改めて考える
@wakufactory まあ、しかし「塡、剝、頰」あたりは常用漢字ですからね。この字がないというのは辛いものがある…。 @aobeka @koikekaisho
2013-04-09 22:59:57@wakufactory @ogwata @aobeka 青空文庫は「ケヶ」問題に見られるように、底本と符号化文字との整合性については一般の編集者よりも敏感であるように思います。時間をかけて直していくことになるのでしょう…
2013-04-09 23:02:16過去のしがらみは置いておいて、電書時代に文字セットをどうするかという問題について、JIS X 0213という基準があるのだからそれで収めるようにするべきかと。どうしても足りないものがあればJISの改定をするべきだし、使われてない漢字も見直す必要があるのでは。素人の私見ですが。
2013-04-09 23:03:21同意! RT @wakufactory: 過去のしがらみは置いておいて、電書時代に文字セットをどうするかという問題について、JIS X 0213という基準があるのだからそれで収めるようにするべきかと。どうしても足りないものがあればJISの改定をするべきだし、使われてない漢字も見…
2013-04-09 23:10:01UTF-8化する際、78互換包摂と、JIS X 0213で包摂適用除外になったものを、底本にあたり直して確認するのか。たくさんの人がそこに意義を見いだして力をふるってくれるなら、乗り出せるかもしれない。 @koikekaisho @ogwata @wakufactory
2013-04-09 23:15:30ただし、大半の人は0208の包摂規準で作ったファイルに、強い違和感がない。作る側、利用する側とも、吉川英治、続いて胡堂、乱歩を公開したい、読みたい気持ちがある。さて皆さんなら、どれを優先されますか? @koikekaisho @ogwata @wakufactory
2013-04-09 23:16:54だからぶっちゃけIVSなんてものは一般の電書環境には要らない。そんなことにコストをかけるなら、UIとかコンテンツの内容に掛けろと。
2013-04-09 23:17:52@aobeka @ogwata @wakufactory 無理しない、という方針でお願いしたいものです。あと、変体仮名は仮令Unicodeに採録されても使わない方向でいきましょう。
2013-04-09 23:19:28@aobeka JIS X 0213に置き換えていくべきでしょう。 常用漢字表が「塡/塡、剝/剥、頰/頬」を区別したことからも分かるとおり、両者の間には有意の差があります。時間がかかってもJIS X 0213に対応すべきかと。@koikekaisho @wakufactory
2013-04-09 23:21:47@ogwata @aobeka @wakufactory 私はBMP派。JISにあるかないかはもう問題にしなくていいと。ExtB以降は注記で…
2013-04-09 23:26:20入力先行。いろいろな人のものを現行形式に合わせるだけで、習熟した仲間がフル稼働しています。校正待ち4000、長いものは10年。包摂規準変更への対応を持ち込むとすれば、その作業現場に。弱虫ですね、私。 @koikekaisho @ogwata @wakufactory
2013-04-09 23:53:18文字についてはニワカですが、コンピュータについてはカタカナしか使えなかった時代から使ってプログラムも作ってきました。日本語を扱うのにどれだけのコストが余計にかかったことか。ローカライズで遅れをとったことか。それがようやくUnicodeで世界と平等になったと思ってる。
2013-04-10 00:01:47@aobeka @koikekaisho @ogwata 校正、変換の効率化のためのツールの開発等の工夫が必要だと思います。
2013-04-10 01:13:08@aobeka @koikekaisho @ogwata @wakufactory 底本に当たり直す手間をかけるのならJIS X 0213の範囲だけというのは中途半端で、荊が荆ではないか、簒が篡、畫が畵、澗が㵎、茲が兹や玆ではないか等も調べ直すべきです。玆は茲/兹と別字ですから。
2013-04-10 01:38:54@KAN0U @aobeka @koikekaisho @ogwata そういう紛らわしい文字を一覧化できれば、使われているか抽出してピンポイントでチェックすれば済みますね。
2013-04-10 11:21:23@KAN0U @koikekaisho @ogwata @wakufactory そうですね。UCVから参照文字リストを作れるのか。もう、誰か作ってくれているのか。
2013-04-10 12:06:06@wakufactory @KAN0U @koikekaisho @ogwata 青空文庫の現行方針を支えるにも、参照文字リスト、部首・音訓索引、その前にコード表。 http://t.co/9K2fOiGxN5 加えて新旧リスト、それらをもとにしたツール類の準備が必要でした。
2013-04-10 12:07:42@aobeka @wakufactory @koikekaisho @ogwata 準備ができたとしても入力・校正者に余分な負担を強いますから、注記形式が現在そうであるように古い物は当面古いままにしておき、混在は必要かと思います。新規入力でもJISベースの従来式も併用すべきかと。
2013-04-10 12:18:08@aobeka @wakufactory @koikekaisho @ogwata とはいえ、将来に向けてUTF-8化が楽になるように今から少しだけ余分な手間を払うことはできるのではないでしょうか。互換包摂29文字については、底本の字形がどちらなのか、今のヶのように注記するとか。
2013-04-10 12:21:27JIS X 0208の包摂規準は我々の一般的常識に照らし合わせてやりすぎの所はある。例えば内田百間は戦後に百閒と改めた。今では大概の本では内田百閒と書かれているわけだが、どちらで表記されていたのかを現在の青空文庫テキストから知る術はない(X0213ベースでも包摂なのは変わらない)
2013-04-10 12:36:06そうか青空文庫ってShift-JIS基本だったのか|.@KAN0U さんの「青空文庫の入力用文字集合を改めて考える」をお気に入りにしました。 http://t.co/Q03rKS3c9v
2013-04-10 14:08:36.@KAN0U さんの「青空文庫の入力用文字集合を改めて考える」をお気に入りにしました。 ※読書用なら現在でも十分、研究用には洗い直しか。 http://t.co/apWrxd9dUx
2013-04-10 20:24:18