【新機能】作り忘れたまとめはありませんか?31日前まで期間指定してまとめが作れる高度な検索ができました。有料APIだからツイートの漏れはありません!

青空文庫の入力用文字集合を改めて考える

@wakufactoryさんの青空文庫の漢字使用頻度数統計から、青空文庫の入力文字の同定をJIS X 0208:1997ベースから拡張すべきでは,という議論が出ました。
人文 青空文庫 文字コード
7747view 3コメント
29
ログインして広告を非表示にする
OE Waku 𛄊𛀬 @wakufactory 2013-04-08 18:56:39
[文字クラスタ向け] 青空文庫の使用漢字を集計してみた http://t.co/Oj9U80o4sT
貍人鳥(小池咊夫) @koikekaisho 2013-04-08 22:52:44
@wakufactory 「⅘」など、Unicodeにあるものを探していく過程に入りますね。
OE Waku 𛄊𛀬 @wakufactory 2013-04-09 10:45:57
青空文庫の全作品中、一番多く使われている漢字は何でしょう?答えはこちら : 青空文庫の使用漢字を集計してみた http://t.co/Oj9U80o4sT
狩野宏樹 @KAN0U 2013-04-09 12:23:41
図書カードの「文字遣い種別」で分けた集計も作って頂けませんでしょうか。「図」は新字の、「圖」は旧字の作品にしか出てきませんし仮名遣いを新仮名に書き換える際には「其後」→「その後」のように書き換えるのが普通ですので。尚、一覧表に順位も入れて頂けると幸いです
OE Waku 𛄊𛀬 @wakufactory 2013-04-09 12:28:44
@KAN0U なるほど、新字旧字の区別はしたほうがよいですね。順位については、CSVファイルをexcel等で開いてソートしていただければ。
市川せうぞー @seuzo 2013-04-09 12:53:37
「人 一見シテ出来スル子、大日ト私事ノ時ヲ思フ」と読むと、創世記みたいな風景を想像しちゃう。 / “青空文庫使用漢字一覧” http://t.co/dXrK59AYu1
OE Waku 𛄊𛀬 @wakufactory 2013-04-09 12:58:05
@seuzo 偶然だろうけど単語として並んでいるのがおもしろいですよね。
貍人鳥(小池咊夫) @koikekaisho 2013-04-09 15:55:34
青空文庫外字:[#「ぞ」は底本では「濁点付き平仮名う」、コマ17-右-5] (1) http://t.co/30BJ2d7wzu
 拡大
貍人鳥(小池咊夫) @koikekaisho 2013-04-09 15:58:17
青空文庫外字:U+81DD 臝 [#「贏」は底本では「※[#「贏」の「貝」に代えて「果」、(二)-27-3] (1) あるもんだ。
富田倫生 @aobeka 2013-04-09 16:18:17
.@koikekaisho 「曽」を字母とした変体仮名「ぞ」のようですね。 http://t.co/2nHP3btVPp 他にこの作品には、「江」を字母とした「え」も使われています。通常の仮名に書き換えるか、外字注記するか。双方認めている対処のどちらを選ぶか、相談します。
OE Waku 𛄊𛀬 @wakufactory 2013-04-09 18:56:22
@koikekaisho 外字について、出典の図書カードへのリンクを追加しました
小形克宏 @ogwata 2013-04-09 22:38:30
新旧で符号位置が分かれる剝剝、頰頬、填塡、顛顚、鷗鴎、蟬蝉、啞唖、侠俠、軀躯、麹麴、屡屢、蒋蔣、醤醬、掻搔、騨驒、箪簞、掴摑、祷禱、溌潑は新字体だけ収録。ただし焔焰、噛嚙、繍繡、涜瀆は両方収録、鹸鹼は旧字のみ収録/青空文庫使用漢字一覧 http://t.co/wNrpsscH2J
小形克宏 @ogwata 2013-04-09 22:40:31
青空文庫のテキストって「90JISの呪縛」という偏向があるのかもね。/青空文庫使用漢字一覧 http://t.co/wNrpsscH2J
小形克宏 @ogwata 2013-04-09 22:42:04
まあ偏向は言い過ぎたかもしれないが、そうした傾向のあるテキストであり、一般的な印刷された書籍とはその点で異なることは認識すべきかも。
OE Waku 𛄊𛀬 @wakufactory 2013-04-09 22:44:58
@koikekaisho @ogwata SJISというかWindowsがJIS X 0213を扱えなかった罪は大きいかと
小形克宏 @ogwata 2013-04-09 22:47:24
@wakufactory よく考えてみたら、青空文庫ってずっとJIS X 0208の包摂規準で運用していたわけで、旧字がJIS X 0213に入っているようなパターンの漢字は、そりゃ拾われませんわな。@koikekaisho
OE Waku 𛄊𛀬 @wakufactory 2013-04-09 22:49:49
@ogwata @koikekaisho 底本が旧字か新字かというのも考慮剃る必要がありそうです。
貍人鳥(小池咊夫) @koikekaisho 2013-04-09 22:51:12
@ogwata @wakufactory 青空文庫を全面的にUTF8に移行するとしても、このあたりはもう一度底本に当たり直しになってしまうので、厄介ですね。 @aobeka
小形克宏 @ogwata 2013-04-09 22:51:29
@wakufactory 即断はできませんけど、このあたりの漢字は、一般的な書籍(とくに小説)ならいわゆる康熙字典体を使っていると思われます。@koikekaisho
OE Waku 𛄊𛀬 @wakufactory 2013-04-09 22:54:19
@koikekaisho @ogwata @aobeka はたして、底本に準拠して厳密にやることに意味があるのか。いまのままで作品としての価値が下がることになるのか、は疑問です。まあ、普通に読書するのと、研究目的では立端が違ってくるとは思いますが。
小形克宏 @ogwata 2013-04-09 22:54:33
まあ、JIS X 0208の包摂規準のおもわぬ使いづらさが露呈したというべきでしょうね…。つまり新旧で画数が変わるような漢字は、包摂してはいけなかったのではないか。その結果が青空文庫のテキスト。
貍人鳥(小池咊夫) @koikekaisho 2013-04-09 22:55:06
@ogwata @wakufactory 恐らくはそうなので、例外の存在が…昭和30年代だとあったりしますから。(そのへん調べてたでしょ
小形克宏 @ogwata 2013-04-09 22:55:44
@wakufactory さんはJIS X 0213主義だと思っていたのにw @aobeka @koikekaisho
OE Waku 𛄊𛀬 @wakufactory 2013-04-09 22:57:38
@ogwata @aobeka @koikekaisho あ、0213主義ですよwでもこの使われなさを見ると無くてもいいんじゃないかとw 実際必要なのは人名とか地名なんでしょうけど。
残りを読む(91)

ブックマークしたタグ

あなたの好きなタグをブックマークしておこう!話題のまとめを見逃さなくなります。

コメント

狩野宏樹 @KAN0U 2013-04-10 23:30:09
まとめを更新しました。
狩野宏樹 @KAN0U 2013-04-11 12:42:10
まとめを更新しました。
狩野宏樹 @KAN0U 2013-04-11 22:44:20
まとめを更新しました。(別まとめに持って行く内容を一時的に最後のほうに置いています)
ログインして広告を非表示にする
ログインして広告を非表示にする