編集可能

青空文庫の入力用文字集合を改めて考える

@wakufactoryさんの青空文庫の漢字使用頻度数統計から、青空文庫の入力文字の同定をJIS X 0208:1997ベースから拡張すべきでは,という議論が出ました。
29
wakufactory @wakufactory

[文字クラスタ向け] 青空文庫の使用漢字を集計してみた http://t.co/Oj9U80o4sT

2013-04-08 18:56:39
貍人鳥(小池咊夫) @koikekaisho

@wakufactory 「⅘」など、Unicodeにあるものを探していく過程に入りますね。

2013-04-08 22:52:44
wakufactory @wakufactory

青空文庫の全作品中、一番多く使われている漢字は何でしょう?答えはこちら : 青空文庫の使用漢字を集計してみた http://t.co/Oj9U80o4sT

2013-04-09 10:45:57
狩野宏樹 @KAN0U

図書カードの「文字遣い種別」で分けた集計も作って頂けませんでしょうか。「図」は新字の、「圖」は旧字の作品にしか出てきませんし仮名遣いを新仮名に書き換える際には「其後」→「その後」のように書き換えるのが普通ですので。尚、一覧表に順位も入れて頂けると幸いです

2013-04-09 12:23:41
wakufactory @wakufactory

@KAN0U なるほど、新字旧字の区別はしたほうがよいですね。順位については、CSVファイルをexcel等で開いてソートしていただければ。

2013-04-09 12:28:44
市川せうぞー @seuzo

「人 一見シテ出来スル子、大日ト私事ノ時ヲ思フ」と読むと、創世記みたいな風景を想像しちゃう。 / “青空文庫使用漢字一覧” http://t.co/dXrK59AYu1

2013-04-09 12:53:37
wakufactory @wakufactory

@seuzo 偶然だろうけど単語として並んでいるのがおもしろいですよね。

2013-04-09 12:58:05
貍人鳥(小池咊夫) @koikekaisho

青空文庫外字:[#「ぞ」は底本では「濁点付き平仮名う」、コマ17-右-5] (1) http://t.co/30BJ2d7wzu

2013-04-09 15:55:34
拡大
貍人鳥(小池咊夫) @koikekaisho

青空文庫外字:U+81DD 臝 [#「贏」は底本では「※[#「贏」の「貝」に代えて「果」、(二)-27-3] (1) あるもんだ。

2013-04-09 15:58:17
富田倫生 @aobeka

.@koikekaisho 「曽」を字母とした変体仮名「ぞ」のようですね。 http://t.co/2nHP3btVPp 他にこの作品には、「江」を字母とした「え」も使われています。通常の仮名に書き換えるか、外字注記するか。双方認めている対処のどちらを選ぶか、相談します。

2013-04-09 16:18:17
wakufactory @wakufactory

@koikekaisho 外字について、出典の図書カードへのリンクを追加しました

2013-04-09 18:56:22
小形克宏 @ogwata

新旧で符号位置が分かれる剝剝、頰頬、填塡、顛顚、鷗鴎、蟬蝉、啞唖、侠俠、軀躯、麹麴、屡屢、蒋蔣、醤醬、掻搔、騨驒、箪簞、掴摑、祷禱、溌潑は新字体だけ収録。ただし焔焰、噛嚙、繍繡、涜瀆は両方収録、鹸鹼は旧字のみ収録/青空文庫使用漢字一覧 http://t.co/wNrpsscH2J

2013-04-09 22:38:30
小形克宏 @ogwata

青空文庫のテキストって「90JISの呪縛」という偏向があるのかもね。/青空文庫使用漢字一覧 http://t.co/wNrpsscH2J

2013-04-09 22:40:31
小形克宏 @ogwata

まあ偏向は言い過ぎたかもしれないが、そうした傾向のあるテキストであり、一般的な印刷された書籍とはその点で異なることは認識すべきかも。

2013-04-09 22:42:04
wakufactory @wakufactory

@koikekaisho @ogwata SJISというかWindowsがJIS X 0213を扱えなかった罪は大きいかと

2013-04-09 22:44:58
小形克宏 @ogwata

@wakufactory よく考えてみたら、青空文庫ってずっとJIS X 0208の包摂規準で運用していたわけで、旧字がJIS X 0213に入っているようなパターンの漢字は、そりゃ拾われませんわな。@koikekaisho

2013-04-09 22:47:24
wakufactory @wakufactory

@ogwata @koikekaisho 底本が旧字か新字かというのも考慮剃る必要がありそうです。

2013-04-09 22:49:49
貍人鳥(小池咊夫) @koikekaisho

@ogwata @wakufactory 青空文庫を全面的にUTF8に移行するとしても、このあたりはもう一度底本に当たり直しになってしまうので、厄介ですね。 @aobeka

2013-04-09 22:51:12
小形克宏 @ogwata

@wakufactory 即断はできませんけど、このあたりの漢字は、一般的な書籍(とくに小説)ならいわゆる康熙字典体を使っていると思われます。@koikekaisho

2013-04-09 22:51:29
wakufactory @wakufactory

@koikekaisho @ogwata @aobeka はたして、底本に準拠して厳密にやることに意味があるのか。いまのままで作品としての価値が下がることになるのか、は疑問です。まあ、普通に読書するのと、研究目的では立端が違ってくるとは思いますが。

2013-04-09 22:54:19
小形克宏 @ogwata

まあ、JIS X 0208の包摂規準のおもわぬ使いづらさが露呈したというべきでしょうね…。つまり新旧で画数が変わるような漢字は、包摂してはいけなかったのではないか。その結果が青空文庫のテキスト。

2013-04-09 22:54:33
貍人鳥(小池咊夫) @koikekaisho

@ogwata @wakufactory 恐らくはそうなので、例外の存在が…昭和30年代だとあったりしますから。(そのへん調べてたでしょ

2013-04-09 22:55:06
小形克宏 @ogwata

@wakufactory さんはJIS X 0213主義だと思っていたのにw @aobeka @koikekaisho

2013-04-09 22:55:44
wakufactory @wakufactory

@ogwata @aobeka @koikekaisho あ、0213主義ですよwでもこの使われなさを見ると無くてもいいんじゃないかとw 実際必要なのは人名とか地名なんでしょうけど。

2013-04-09 22:57:38
残りを読む(91)

コメント

狩野宏樹 @KAN0U 2013年4月10日
まとめを更新しました。
0
狩野宏樹 @KAN0U 2013年4月11日
まとめを更新しました。
0
狩野宏樹 @KAN0U 2013年4月11日
まとめを更新しました。(別まとめに持って行く内容を一時的に最後のほうに置いています)
0