青空文庫の入力用文字集合を改めて考える
青空文庫の全作品中、一番多く使われている漢字は何でしょう?答えはこちら : 青空文庫の使用漢字を集計してみた http://t.co/Oj9U80o4sT
2013-04-09 10:45:57図書カードの「文字遣い種別」で分けた集計も作って頂けませんでしょうか。「図」は新字の、「圖」は旧字の作品にしか出てきませんし仮名遣いを新仮名に書き換える際には「其後」→「その後」のように書き換えるのが普通ですので。尚、一覧表に順位も入れて頂けると幸いです
2013-04-09 12:23:41@KAN0U なるほど、新字旧字の区別はしたほうがよいですね。順位については、CSVファイルをexcel等で開いてソートしていただければ。
2013-04-09 12:28:44「人 一見シテ出来スル子、大日ト私事ノ時ヲ思フ」と読むと、創世記みたいな風景を想像しちゃう。 / “青空文庫使用漢字一覧” http://t.co/dXrK59AYu1
2013-04-09 12:53:37青空文庫外字:[#「ぞ」は底本では「濁点付き平仮名う」、コマ17-右-5] (1) http://t.co/30BJ2d7wzu
2013-04-09 15:55:34青空文庫外字:U+81DD 臝 [#「贏」は底本では「※[#「贏」の「貝」に代えて「果」、(二)-27-3] (1) あるもんだ。
2013-04-09 15:58:17.@koikekaisho 「曽」を字母とした変体仮名「ぞ」のようですね。 http://t.co/2nHP3btVPp 他にこの作品には、「江」を字母とした「え」も使われています。通常の仮名に書き換えるか、外字注記するか。双方認めている対処のどちらを選ぶか、相談します。
2013-04-09 16:18:17新旧で符号位置が分かれる剝剝、頰頬、填塡、顛顚、鷗鴎、蟬蝉、啞唖、侠俠、軀躯、麹麴、屡屢、蒋蔣、醤醬、掻搔、騨驒、箪簞、掴摑、祷禱、溌潑は新字体だけ収録。ただし焔焰、噛嚙、繍繡、涜瀆は両方収録、鹸鹼は旧字のみ収録/青空文庫使用漢字一覧 http://t.co/wNrpsscH2J
2013-04-09 22:38:30青空文庫のテキストって「90JISの呪縛」という偏向があるのかもね。/青空文庫使用漢字一覧 http://t.co/wNrpsscH2J
2013-04-09 22:40:31@koikekaisho @ogwata SJISというかWindowsがJIS X 0213を扱えなかった罪は大きいかと
2013-04-09 22:44:58@wakufactory よく考えてみたら、青空文庫ってずっとJIS X 0208の包摂規準で運用していたわけで、旧字がJIS X 0213に入っているようなパターンの漢字は、そりゃ拾われませんわな。@koikekaisho
2013-04-09 22:47:24@ogwata @wakufactory 青空文庫を全面的にUTF8に移行するとしても、このあたりはもう一度底本に当たり直しになってしまうので、厄介ですね。 @aobeka
2013-04-09 22:51:12@wakufactory 即断はできませんけど、このあたりの漢字は、一般的な書籍(とくに小説)ならいわゆる康熙字典体を使っていると思われます。@koikekaisho
2013-04-09 22:51:29@koikekaisho @ogwata @aobeka はたして、底本に準拠して厳密にやることに意味があるのか。いまのままで作品としての価値が下がることになるのか、は疑問です。まあ、普通に読書するのと、研究目的では立端が違ってくるとは思いますが。
2013-04-09 22:54:19まあ、JIS X 0208の包摂規準のおもわぬ使いづらさが露呈したというべきでしょうね…。つまり新旧で画数が変わるような漢字は、包摂してはいけなかったのではないか。その結果が青空文庫のテキスト。
2013-04-09 22:54:33@ogwata @wakufactory 恐らくはそうなので、例外の存在が…昭和30年代だとあったりしますから。(そのへん調べてたでしょ
2013-04-09 22:55:06@ogwata @aobeka @koikekaisho あ、0213主義ですよwでもこの使われなさを見ると無くてもいいんじゃないかとw 実際必要なのは人名とか地名なんでしょうけど。
2013-04-09 22:57:38