【宮武外骨】 電子復刻事始~奇態流行史の作り方 【廢姓外骨】

苦節半年、奇態流行史がようやくできたので、「古書・稀覯本を電子書籍に仕立て直すまで」の手順をさらっとおさらいしてみた。 昭和平成に絶版になった本の場合でも、基本的な手順は同じです(・ω・) 【奇態流行史】 http://amzn.to/1mH2I8G 続きを読む
42
加藤AZUKI @azukiglg

これを、「好きでやってるんだから、タダでやれ」というのは容易い。完成品をタダで配れも、まあ容易い。だけど、「それだけ労力を掛けないと、紙の底本を電子化できない」「それらを電子化する労力に値段を付け、それを回収できるようにしなければ、後に続く人は出ない」とも思う。

2014-05-30 04:29:04
加藤AZUKI @azukiglg

作家、イラストレーター、漫画家は多いし、編集者も多いと思うけど、電子書籍界隈で最も足りてない(お足を払えない)のは、校正者とデザイナーだとは思った。奇態流行史も校正に全期間の半分以上が掛かってる。で、このコストを、「売上」から回収できるようにはしたい。

2014-05-30 04:30:24
加藤AZUKI @azukiglg

というより、そうした「制作コスト」はタダじゃない、原稿料・印税とは別のところに掛かるコストを、売上から回収する事を非とする風潮ができてしまうと、「作者が直接自分で校正も組版もデザインもやる」というもの以外は電子書籍になりにくくなる。

2014-05-30 04:31:17
加藤AZUKI @azukiglg

なので、奇態流行史ではそれぞれの工程をやるのに、実際にどのくらい時間が掛かってて、どのくらいの人数がそれらに従事したかというのを、今回割と厳密にカウントしました。んで、本来は技能職の仕事なので時給換算って難しいんだけど、一律時給950円で計算中(`・ω・´)

2014-05-30 04:33:03
加藤AZUKI @azukiglg

学生のバイトか!ってくらい安いw もし同じ作業を職業的プロとしてやろうと思った場合に確保したい予算と比較した場合、びっくりするくらい安い。安いけど、その制作費を回収するのには、580円で売って(うち35%が収益)も、300~500は売れないと厳しい。

2014-05-30 04:34:30
加藤AZUKI @azukiglg

まあ、そんだけ売れれば後は収益、でいいとは思う。まず100DL、次に300、そして500、1000いったらやや安心、3000越えたら成功です。人手をかけて作るなら、それくらいは必要になるんだけど、電子書籍の読者市場規模がそこまでいってないからなあ(^^;)

2014-05-30 04:36:17
加藤AZUKI @azukiglg

「見えないところにお金は掛かっていない」「完成品に痕跡がないものは料金を取る価値がない」という意識の人は多いんじゃないかな。残念ながら。 QT @koalaclaw: @azukiglg 「自分ちに本を届ける人への人件費を無視する人種」ってヤツか。紙を電子化する手間をかてる人間が

2014-05-30 04:37:37
加藤AZUKI @azukiglg

校正なんかその典型で、誤字が残ってたら負け。校正をした痕跡がどこにも見当たらないくらい誤字がない状態が校正の能力の証しなんだけど、その価値を値段に盛り込むのって、理解されにくいよね(^^;) QT @koalaclaw: @azukiglg 「自分ちに本を届ける人への人件費を無視

2014-05-30 04:38:37

電子復刻事始 その5-3■スキャン画像のルビ・圏点抜き加工

加藤AZUKI @azukiglg

その5-3■スキャン画像のルビ・圏点抜き加工 blog.livedoor.jp/takenoko_shobo… さて、スキャンした画像データにOCRをかけて画像の文字をテキストデータとして抽出……の前に、ゴミ取りをする。 livedoor.blogimg.jp/takenoko_shobo…

2014-05-30 04:41:44
加藤AZUKI @azukiglg

総ルビ本じゃないとはいえ、一部ルビが入ってたり、圏点が入ってたりする。これを残したままOCRを描けると、ルビや圏点を「別の1行」と認識したり、漢字の部首の一部と認識したりして、結果、誤認率が上がるorz ので、これを予め「ゴミ」として画像データから全部取り除く。

2014-05-30 04:43:05
加藤AZUKI @azukiglg

120頁分のゴミ取りヽ(´∇`)ノ livedoor.blogimg.jp/takenoko_shobo… livedoor.blogimg.jp/takenoko_shobo… 指定して削除したとこは、下のレイヤーに原本の白ページをスキャンしたものを敷いて、補正することで、「ルビがない本文データ」を作る。

2014-05-30 04:44:34

電子復刻事始 その5-4■OCR読取作業

加藤AZUKI @azukiglg

電子復刻事始 その5-4■OCR読取作業 blog.livedoor.jp/takenoko_shobo… そうしてできたルビなし画像データにようやくOCRをかける。 livedoor.blogimg.jp/takenoko_shobo… 挿画をまとめてスキャンすると、挿画も文字として誤認識してしまうので、

2014-05-30 04:46:00
加藤AZUKI @azukiglg

livedoor.blogimg.jp/takenoko_shobo… livedoor.blogimg.jp/takenoko_shobo… こんな具合で、挿画は避けて範囲指定して本文のみをOCR取り込み。 「電子書籍を作ってくれるサービス」とかの会社も出て来たけど、この一手間をオプション価格にしてるw

2014-05-30 04:46:53
加藤AZUKI @azukiglg

「そんな工程程度に金とんのかよ!」と思われるかもしれないけど、上下1段ずつ合計1頁2ブロックのスキャンと、挿画を避けて6ブロックのスキャンだったら、そりゃ後者のほうが手間が掛かってる。後が楽になるしキレイにもなるけど、手間は掛かる。 商売でやってる人達の人件費(拘束料)も嵩む。

2014-05-30 04:48:22
加藤AZUKI @azukiglg

で、ここからは10頁=1ファイルにして、ケアレスミスで全部を失うリスクを避け、分担作業ができるようにする。一人で120頁以上やる、とか考えただけで心が折れるからです(`・ω・´)

2014-05-30 04:49:35
加藤AZUKI @azukiglg

まあでも、そのくらい完璧なものを商品として提供してきた先輩達への信頼が、そんだけ強いってことなんだろうなとは思うよ。ただ、昔と比べて今のほうが校正に割ける費用はどんどん下がってるけどね…… QT @koalaclaw: @azukiglg ああ、もともとマイナス要素(誤字だのなん

2014-05-30 04:50:58

電子復刻事始 その5-5■テキスト校正

加藤AZUKI @azukiglg

電子復刻事始 その5-5■テキスト校正 blog.livedoor.jp/takenoko_shobo… ここで、一度目の校正。 原本と付き合わせながら、OCRの誤認識部分を洗い出します。原本が誤字だったら、それに合わせてOCR結果も誤字にする、原本と同じ旧字を必ず(できるだけ)使う、というルール。

2014-05-30 04:52:45
加藤AZUKI @azukiglg

ここで、「違いが微妙過ぎて見落とす」のが山ほど出て、えらい時間を食ったわけです。 例えば、 「京」と「亰」は別の文字ですし、 「寛」と「寬」は別の文字です。(ルの右側に点) 「神」と「神」は別の文字ですし、 「髪」と「髮」は別の文字です。(友が、跋の造りと同じ形)

2014-05-30 04:53:49
加藤AZUKI @azukiglg

OCRソフトはシフトJISにしか対応してないので、旧字体の一部、第三第四水準の文字は当然認識できないし出力もできません。ので、UTF-8にしたファイルと原本を付き合わせながら、全部目視=手動で直していくんだよ……。「寬」とか「者」とか、どうしてそんなとこに点付けんだよちくしょう。

2014-05-30 04:55:48
加藤AZUKI @azukiglg

新字に開いてもいいのかもしれないけど、今回は「原本を兎に角可能な限り正確に再現する」というのが目標なので、目玉が溶け、髪の毛が細くなる勢いで作業。 livedoor.blogimg.jp/takenoko_shobo…

2014-05-30 04:57:18

電子復刻事始 その5-6■ルビと圏点と見出し

加藤AZUKI @azukiglg

電子復刻事始 その5-6■ルビと圏点と見出し blog.livedoor.jp/takenoko_shobo… ここで再び原本を見ながら、ルビ、圏点を入れる作業に。青空文庫のタグルールでルビ、圏点を入れて行きます。見出しも同様。

2014-05-30 04:59:14