青空文庫の入力用文字集合を改めて考える

@wakufactoryさんの青空文庫の漢字使用頻度数統計から、青空文庫の入力文字の同定をJIS X 0208:1997ベースから拡張すべきでは,という議論が出ました。
29
前へ 1 2 ・・ 5 次へ
小形克宏 @ogwata

@wakufactory まあ、しかし「塡、剝、頰」あたりは常用漢字ですからね。この字がないというのは辛いものがある…。 @aobeka @koikekaisho

2013-04-09 22:59:57
貍人鳥(小池咊夫) @koikekaisho

@wakufactory @ogwata @aobeka 青空文庫は「ケヶ」問題に見られるように、底本と符号化文字との整合性については一般の編集者よりも敏感であるように思います。時間をかけて直していくことになるのでしょう…

2013-04-09 23:02:16
wakufactory 🍥𝕏 @wakufactory

過去のしがらみは置いておいて、電書時代に文字セットをどうするかという問題について、JIS X 0213という基準があるのだからそれで収めるようにするべきかと。どうしても足りないものがあればJISの改定をするべきだし、使われてない漢字も見直す必要があるのでは。素人の私見ですが。

2013-04-09 23:03:21
小形克宏 @ogwata

同意! RT @wakufactory: 過去のしがらみは置いておいて、電書時代に文字セットをどうするかという問題について、JIS X 0213という基準があるのだからそれで収めるようにするべきかと。どうしても足りないものがあればJISの改定をするべきだし、使われてない漢字も見…

2013-04-09 23:10:01
富田倫生 @aobeka

UTF-8化する際、78互換包摂と、JIS X 0213で包摂適用除外になったものを、底本にあたり直して確認するのか。たくさんの人がそこに意義を見いだして力をふるってくれるなら、乗り出せるかもしれない。 @koikekaisho @ogwata @wakufactory

2013-04-09 23:15:30
富田倫生 @aobeka

ただし、大半の人は0208の包摂規準で作ったファイルに、強い違和感がない。作る側、利用する側とも、吉川英治、続いて胡堂、乱歩を公開したい、読みたい気持ちがある。さて皆さんなら、どれを優先されますか? @koikekaisho @ogwata @wakufactory

2013-04-09 23:16:54
wakufactory 🍥𝕏 @wakufactory

だからぶっちゃけIVSなんてものは一般の電書環境には要らない。そんなことにコストをかけるなら、UIとかコンテンツの内容に掛けろと。

2013-04-09 23:17:52
貍人鳥(小池咊夫) @koikekaisho

@aobeka @ogwata @wakufactory 無理しない、という方針でお願いしたいものです。あと、変体仮名は仮令Unicodeに採録されても使わない方向でいきましょう。

2013-04-09 23:19:28
小形克宏 @ogwata

@aobeka JIS X 0213に置き換えていくべきでしょう。 常用漢字表が「塡/塡、剝/剥、頰/頬」を区別したことからも分かるとおり、両者の間には有意の差があります。時間がかかってもJIS X 0213に対応すべきかと。@koikekaisho @wakufactory

2013-04-09 23:21:47
貍人鳥(小池咊夫) @koikekaisho

@ogwata @aobeka @wakufactory 私はBMP派。JISにあるかないかはもう問題にしなくていいと。ExtB以降は注記で…

2013-04-09 23:26:20
富田倫生 @aobeka

入力先行。いろいろな人のものを現行形式に合わせるだけで、習熟した仲間がフル稼働しています。校正待ち4000、長いものは10年。包摂規準変更への対応を持ち込むとすれば、その作業現場に。弱虫ですね、私。 @koikekaisho @ogwata @wakufactory

2013-04-09 23:53:18
wakufactory 🍥𝕏 @wakufactory

文字についてはニワカですが、コンピュータについてはカタカナしか使えなかった時代から使ってプログラムも作ってきました。日本語を扱うのにどれだけのコストが余計にかかったことか。ローカライズで遅れをとったことか。それがようやくUnicodeで世界と平等になったと思ってる。

2013-04-10 00:01:47
貍人鳥(小池咊夫) @koikekaisho

@aobeka 青空文庫の勇気が日本の読書を支えています。

2013-04-10 00:03:11
wakufactory 🍥𝕏 @wakufactory

@aobeka @koikekaisho @ogwata 校正、変換の効率化のためのツールの開発等の工夫が必要だと思います。

2013-04-10 01:13:08
狩野宏樹 @KAN0U

@aobeka @koikekaisho @ogwata @wakufactory 底本に当たり直す手間をかけるのならJIS X 0213の範囲だけというのは中途半端で、荊が荆ではないか、簒が篡、畫が畵、澗が㵎、茲が兹や玆ではないか等も調べ直すべきです。玆は茲/兹と別字ですから。

2013-04-10 01:38:54
wakufactory 🍥𝕏 @wakufactory

@KAN0U @aobeka @koikekaisho @ogwata そういう紛らわしい文字を一覧化できれば、使われているか抽出してピンポイントでチェックすれば済みますね。

2013-04-10 11:21:23
富田倫生 @aobeka

@KAN0U @koikekaisho @ogwata @wakufactory そうですね。UCVから参照文字リストを作れるのか。もう、誰か作ってくれているのか。

2013-04-10 12:06:06
富田倫生 @aobeka

@wakufactory @KAN0U @koikekaisho @ogwata 青空文庫の現行方針を支えるにも、参照文字リスト、部首・音訓索引、その前にコード表。 http://t.co/9K2fOiGxN5 加えて新旧リスト、それらをもとにしたツール類の準備が必要でした。

2013-04-10 12:07:42
狩野宏樹 @KAN0U

@aobeka @wakufactory @koikekaisho @ogwata 準備ができたとしても入力・校正者に余分な負担を強いますから、注記形式が現在そうであるように古い物は当面古いままにしておき、混在は必要かと思います。新規入力でもJISベースの従来式も併用すべきかと。

2013-04-10 12:18:08
狩野宏樹 @KAN0U

@aobeka @wakufactory @koikekaisho @ogwata とはいえ、将来に向けてUTF-8化が楽になるように今から少しだけ余分な手間を払うことはできるのではないでしょうか。互換包摂29文字については、底本の字形がどちらなのか、今のヶのように注記するとか。

2013-04-10 12:21:27
狩野宏樹 @KAN0U

JIS X 0208の包摂規準は我々の一般的常識に照らし合わせてやりすぎの所はある。例えば内田百間は戦後に百閒と改めた。今では大概の本では内田百閒と書かれているわけだが、どちらで表記されていたのかを現在の青空文庫テキストから知る術はない(X0213ベースでも包摂なのは変わらない)

2013-04-10 12:36:06
貍人鳥(小池咊夫) @koikekaisho

@KAN0U うちだひゃっけんと打ったらiPhoneが百間と百閒の両方を候補に出してきてAppleめ。

2013-04-10 12:53:22
りおかんぽす🌻(💉×4) @riocampos

そうか青空文庫ってShift-JIS基本だったのか|.@KAN0U さんの「青空文庫の入力用文字集合を改めて考える」をお気に入りにしました。 http://t.co/Q03rKS3c9v

2013-04-10 14:08:36
おりひか いくお @Orihika

.@KAN0U さんの「青空文庫の入力用文字集合を改めて考える」をお気に入りにしました。 ※読書用なら現在でも十分、研究用には洗い直しか。 http://t.co/apWrxd9dUx

2013-04-10 20:24:18
前へ 1 2 ・・ 5 次へ