自炊pdfの主な難点

1. OCR性能の違いがあり、日本語OCRにかんしてAcrobatは現在は暫定王者である。 が、検証能力の公平さにおいて疑わしい比較記事があることで(ex. http://monomania.sblo.jp/article/55737163.html )その実態は周知されていない。 2. OCR性能にかかわらず、スマフォ/タブレットでのビューアアプリで、OCR読み込み/ハイライト処理/上書き保存能力 を万全に備えたものが実は 存 在 し な い 続きを読む
9
Kuni Sakamoto @kunisakamoto

Goodreaderで縦書のテキストが正しくハイライトできないことにオランダ最高峰に匹敵するレベルの高さに達したストレスを抱いている。縦書を正しく認識するOCRソフトを走らせるために、ウィンドウズに乗りかえてもいいレベル。

2015-07-02 23:55:24
Kuni Sakamoto @kunisakamoto

読み取り革命だと拾えるのか。

2015-07-02 23:58:29
白江幸司 @ttt_cellule

@kunisakamoto 読取革命はその分OCR精度が低く、文字の間に半角スペースが入る率も格段に高まるため推奨できません。OCRはAcrobatで、縦書OCRを読むためのビューアアプリはi文庫で、が暫定結論です

2015-07-03 05:50:58
白江幸司 @ttt_cellule

@kunisakamoto e.Typistはあまり使用経験がないんですがOCR精度と半角スペースで読取革命とさほど変わらない水準だったかなと。縦書OCRではいまのところAcrobat一強状態です

2015-07-03 05:53:10

[まとめ時点での補注]
このとき、OCRソフトの違いではなく、アプリがOCRを拾う性能の違いによる現象と気づく。
上述の「読取革命はその分OCR精度が低く、文字の間に半角スペースが入る率も格段に高まるため推奨できません」の「その分」は「OCR機能の高さに引き換えに」という意味になるが、そもそもOCR機能が高いとも言いがたい(そのため後述でAdobe Acrobat一強状態を強調することで修正しました)。半角スペースはOCR読み取りによる全文検索の場合に大きな障害となる点で非推奨となります。

白江幸司 @ttt_cellule

@kunisakamoto たぶん勘違いしてます。縦書OCRがきちんとかかっているかと、ビューアが縦書OCRを拾うかは別問題で、この件は後者です。OCRをかけるソフトを変えても後者は解決しないのでビューア性能の問題。goodreaderは横書しか想定されてないようなんですね

2015-07-03 05:57:01
白江幸司 @ttt_cellule

@kunisakamoto こんなふうに同一でビューアによって分岐するわけです twitter.com/ttt_cellule/st… twitter.com/ttt_cellule/st…

2015-07-03 06:02:05
白江幸司 @ttt_cellule

こういうふざけたocrの拾い方をするわけよ GoodReader結果 pic.twitter.com/ecmQMS4tlz

2014-04-07 10:36:49
白江幸司 @ttt_cellule

で、こっちはPCと同じようにきちんとocrを拾ってくれる i文庫HD結果 同一のファイルでアプリによって拾えるocrが違うってどういうことよ… pic.twitter.com/bH6CEo0dyZ

2014-04-07 10:39:22
白江幸司 @ttt_cellule

こういうふざけたocrの拾い方をするわけよ GoodReader結果 pic.twitter.com/ecmQMS4tlz

2014-04-07 10:36:49
拡大
白江幸司 @ttt_cellule

で、こっちはPCと同じようにきちんとocrを拾ってくれる i文庫HD結果 同一のファイルでアプリによって拾えるocrが違うってどういうことよ… pic.twitter.com/bH6CEo0dyZ

2014-04-07 10:39:22
拡大
Kuni Sakamoto @kunisakamoto

@ttt_cellule 丁寧にありがとうございます。とても参考になりました。i文庫も手元にあるので試してみます!

2015-07-03 08:40:43
白江幸司 @ttt_cellule

@kunisakamoto いえいえ。ところで、「ハイライト済みpdfの保存」の点でgoodreaderはたしか自動同期による上書き保存が可能だったと思いますが、i文庫はファイル保存機能はたしか無く(!)ハイライト箇所の抽出をEvernoteにエクスポートできるのみなのが難点です

2015-07-03 08:58:38
白江幸司 @ttt_cellule

.@kunisakamoto 一応ねばってi文庫機能探したりぐぐったりしたんですが、たしか無いんですよね…。ファイル保存と縦書OCR読取の両方が可能なアプリがないというのはかなり悲惨な事態です

2015-07-03 09:50:14
Kuni Sakamoto @kunisakamoto

@ttt_cellule つ、つらいですね。同期でファイル上書きされないとなると研究用としては。いろいろ教えていただきありがとうございました!

2015-07-03 14:49:04
白江幸司 @ttt_cellule

同意せざるをえない。RT @zepkark: Kindle、人気のあるハイライトが初期設定でONになっているとか… 他にやるべきことがあるだろう、頁数とか頁数とか頁数とか。

2015-07-03 21:21:19