- iamdreamers
- 4415
- 0
- 2
- 60
まとめ
文書をPDF、に限らないけど別フォーマット、に変えてWeb公開したい場合というのは結構ある。拡大・縮小してもデザインが変わらないようにとか、印刷したときのページ単位で見えるようにとか、改変を防ぐためとか。
2014-06-10 13:12:00さらに、Web公開するのだからブラウザから直接参照できたほうがいいとか、できるだけ多くの人が見られるようにリーダーは無料のもの・できればOS添付のものがいいとか、そんな条件も入ってくる。
2014-06-10 13:12:22ここにGoogle社など、世界中のWebサイトを定期的にクロールしてその内容のインデックスを作成し、無数と言っても良いWebページから目的のページを検索できるようなシステムを構築・提供している会社がある。
2014-06-10 13:13:30しかし、PDFのページはテキストで書かれているわけではないので、通常のクロールでは検索用のインデックスを作成できない。HTMLだけを検索するという仕様でもよいけれど、ユーザーの利便性を考えると、PDFも検索できればなおいい。
2014-06-10 13:13:55そこで出てくるのがOCR、光学文字認識という技術である。WebサイトにPDFを見つけた場合、PDFの表示結果を画像として扱い、そこから文字を抽出してインデックスを作成する、という方法で、PDFのページも検索できるようにした。
2014-06-10 13:14:18しかし、OCRとて人間の作るものだから、当然の事ながら完璧ではない。そのため、「力」(ちから)と「カ」(か)、「口」(くち)と「ロ」(ろ)など、似た文字を間違って認識してしまうことがある。
2014-06-10 13:14:41これらをいちいち人間が目視確認してインデックスを修正していけば良いが、何しろ無数のWebページがある今、そんなことをやっている余裕は、どこにもない。結果として「原子カ」(げんしか)などの訳の分からない言葉が検索エンジンにかかる、ということになる。
2014-06-10 13:15:03ソフトウェア技術者として
そういう仕組みを知らずに「陰謀だ」などと騒ぐ人を「情弱」と切り捨てるのも良い、が・・・それは私たちソフトウェア技術者がやってはいけない。(仕組みを知ってなおかつ陰謀論を唱える人は、捨てておく)
2014-06-10 13:15:31前にも何度かつぶやいているけど、そういう人たちを「情弱」と切り捨てているうちは、ソフトウェアの技術はまだまだ黎明期にある、ということに他ならない、というのが私の考え。
2014-06-10 13:16:00だから、こういう人が出ないよう、ソフトウェアの技術(この場合はOCRによる文字認識の精度)を高めて、決してミスを犯さないようにしていくことが大事なのである。
2014-06-10 13:16:33