編集部イチオシ

青空文庫20周年記念シンポジウム「青空文庫の今とこれから」に行ってきた

2017/10/14(土)13:00~17:50@スマートニュース社(東京・渋谷) 参加された方々のtweetをまとめました。 私も会場で聴かせていただきましたが、実際のお話の内容に沿って整理してみました。おかしなところがありましたら、ご指摘いただけるとありがたいです。
48
前へ 1 2 ・・ 9 次へ
chroju @chroju

「無料で本が読める」というより「自由に本が読める」 #aozora20th

2017-10-14 13:27:53
KosukΞNAGAI | hanatochill.eth | Web3 BizDev&Lawyer @hanatochill

セッションで語られる富田さんや大久保さんのパーソナルなエピソードや想いが鮮やかですね…個人の活動の積み重ねである青空文庫らしいというか、本質なのかも知れないと印象的。 #aozora20th

2017-10-14 13:28:19
STokizane @stokizane

#aozora20th 富田; 倫生から著作権の保護期間延長のゼッケンをつくってくれと頼まれた。 大久保: 「無料で読める」というのはあまり好きではない。「自由に読める」といいたい。 2016年1月7日東京新聞でTPPに関連して「遠のく共有財産化」と見出しがでて、感動した。

2017-10-14 13:28:57
STokizane @stokizane

大久保: 2013年、富田倫生氏とのお別れ。本の未来基金の創立。 #aozora20th

2017-10-14 13:30:44

動画が公開されました。

青空文庫20周年記念シンポジウム「青空文庫の今とこれから」基調講演:青空文庫の20年間について https://youtu.be/rP7cfopyUcw

チュートリアルセッション 青空文庫の仕組みとボランティア入門

大久保ゆうさん、富田晶子さん

STokizane @stokizane

#aozora20th 続いて「青空文庫 作業チュートリアル」セッション 大久保: 作業の流れ。「入力」→「点検」→「校正」→「公開」 「入力」底本の選定は入力希望者にまかせている。 私の場合は、本を一旦コピーして、これを書見台において作業している。

2017-10-14 13:39:39
STokizane @stokizane

#aozora20th 大久保: 青空文庫は注記 (ルビ、字下げなど) に独特のルールがある。もともと視覚障がい者の読書支援グループからの要望があり、そのルールを準用した。

2017-10-14 13:42:15
STokizane @stokizane

#aozora20th 大久保: 最近の本で状態がよいとスキャナを使うこともある。スキャナでPDFにしたとき、文字が自動的にバックに入る。不要な文字列などは置換で消したりして整えていく。OCRだと手入力と違い、作品を読む喜びがないという気もする。

2017-10-14 13:46:58
mikyossy @mikyossy

大久保ゆうさんが、青空文庫の本の作り方の入力作業を実演中です。。! aozorabunko20th.peatix.com

2017-10-14 13:48:17
STokizane @stokizane

#aozora20th 点検 底本をみながらチェックをおこなう。字下げなどの体裁も再現しようとしている。こうした形式の点検はボランティアの校正者に頼めないので、青空文庫の中でおこなっている。 たとえば、ページの真ん中に「一」と書いてあるときは [# ページの左右中央]と注記する。

2017-10-14 13:59:08
STokizane @stokizane

#aozora20th 富田: 文字種類 (ひらがなの小書など) はチェッカーを使って見つける。半角文字は全角にする。目で見ても半角と全角の区別は難しい。 文末の空白も削除する。 「問題表現」(差別表現) もチェッカーを使う。その場合、備考に注記する。

2017-10-14 14:05:21
フクポー@萬年稅理士試驗受驗生 @fukupow

「へ(ひらがな)」と「ヘ(カタカナ)」の目視はフォント次第だな。パソコンなら見て分かるけど、このスマフォでは正直見ただけでは分からん。 #aozora20th

2017-10-14 14:14:05
pawa @_pawa_

「へ」と「ヘ 」見分けられる気がしない #aozora20th

2017-10-14 14:14:25
STokizane @stokizane

#aozora20th 旧字体置換可能チェッカーは大野さんが開発してくれた。ひらがなとかたかなの「へ」と「ヘ」は目では不可能。 大久保: 最初はたぶん区別していなかったと思う。これが目で見てわかる協力者がいて、これは直さなければ、という話になったと思う。

2017-10-14 14:11:24
chroju @chroju

職業柄、正規表現はいろいろ使ってきたけど、漢字の新字旧字正規表現ほど凄まじいのは初めて見たな…… #aozora20th

2017-10-14 14:13:59
フクポー@萬年稅理士試驗受驗生 @fukupow

出た、間違へやすい漢字。OCRでもよく誤認識される。 #aozora20th

2017-10-14 14:17:05
Masayoshi Takahashi @takahashim

@ryou_takano どっちが正しいかを自動で決定できない限り、どうしても人間の確認は必要になりますね…。確認・修正しやすい校正環境を作るところまではできそうですが

2017-10-14 14:24:16
鷹野凌@HON.jp📚 @ryou_takano

こういうの、正規表現使って検索する点検工程があるんだけど、手作業ではなくまとめて自動チェックできないものだろうか。ノウハウが蓄積されてるのはよくわかる。 #aozora20th pic.twitter.com/lFHvyzZ6hJ

2017-10-14 14:19:16
拡大
STokizane @stokizane

#aozora20th 富田: 最後に Encoding の確認をおこなう。これが違っていると機種依存文字が表示できなくなる。文字チェッカーは結城さんが開発してくれた。外字がはいっていると確認できる。 典型的な間違いも集めてチェックしている。「鳥」が「烏」となっているなど。

2017-10-14 14:17:05
鷹野凌@HON.jp📚 @ryou_takano

結城浩さんの「文字チェッカー 3.60(通称:チェッカー君)」 hyuki.com/aozora/checker… を非常に重宝しているとのこと。 #aozora20th

2017-10-14 14:26:46
STokizane @stokizane

#aozora20th 富田: 見つからない外字検索は CHISE IDS 漢字検索を使う 最後に底本の奥付けを確認。基本は底本のとおりに記載する。 底本の親本も調べて記載する。 寄せ集めの本の場合なかなか大変である。 ファイル名のローマ字表記。touhoku → tohoku

2017-10-14 14:24:15
前へ 1 2 ・・ 9 次へ