「原子カ」(げんしか)で検索して驚いている人に驚・・・いてもいられない

ソフトウェアに携わる人は、「情弱」なんて言ってちゃ駄目よ、って話。 ・・・自分で言ってて耳がいたひ・・・
20
まとめ 「"原子力(りょく)"ではなく"原子カ(か)"で検索すると出てくるpdf資料が「検索避けの隠蔽工作か!?」と一部で話題。 最初のリンクの誤字は誤読み取り資料からのコピペですかね。 57479 pv 748 24 users 377
まとめ 原子カ(カタカナのカ)で検索して驚いた しだいに問題点と原因が分かってきました。コメントをする人は書き込む前に、この解説文も含めて最後まで読んでください。まとめでは特に最後の6個が大事です。 パソコンを使ってワードやパワーポイントで作った資料をPFDに変換する時には、編集だけを不可にして、文字コピーを可にしたPDFデータにすればいいのに、日本政府と電力会社が公開しているPDFは意図的に文字コピー不可にしていることが原因です。 文字コピー不可のPDFは、画像データのようになってしまい、Googleが文字を抽出できないのでOCR処理で文字を認識するため、インデックス抽出で文字化けが起きます。特に原子力関係の情報は国民への周知のための重要な情報公開であり、しかも政府と電力会社は一般の会社や個人サイトとは違うのだからパソコンで作成した資料をPDFに変.. 41559 pv 633 167 users 296

まとめ

夢乃 @iamdreamers

“原子カ”(げんしか)で検索して驚く人に驚いてみるなど。

2014-06-10 13:11:32
夢乃 @iamdreamers

文書をPDF、に限らないけど別フォーマット、に変えてWeb公開したい場合というのは結構ある。拡大・縮小してもデザインが変わらないようにとか、印刷したときのページ単位で見えるようにとか、改変を防ぐためとか。

2014-06-10 13:12:00
夢乃 @iamdreamers

さらに、Web公開するのだからブラウザから直接参照できたほうがいいとか、できるだけ多くの人が見られるようにリーダーは無料のもの・できればOS添付のものがいいとか、そんな条件も入ってくる。

2014-06-10 13:12:22
夢乃 @iamdreamers

それらの状況を全部満たすフォーマットとして、例えばPDF形式がある。そこで、PDF形式にして、自分のWebサイトに掲載する。

2014-06-10 13:12:46
夢乃 @iamdreamers

ここにGoogle社など、世界中のWebサイトを定期的にクロールしてその内容のインデックスを作成し、無数と言っても良いWebページから目的のページを検索できるようなシステムを構築・提供している会社がある。

2014-06-10 13:13:30
夢乃 @iamdreamers

しかし、PDFのページはテキストで書かれているわけではないので、通常のクロールでは検索用のインデックスを作成できない。HTMLだけを検索するという仕様でもよいけれど、ユーザーの利便性を考えると、PDFも検索できればなおいい。

2014-06-10 13:13:55
夢乃 @iamdreamers

そこで出てくるのがOCR、光学文字認識という技術である。WebサイトにPDFを見つけた場合、PDFの表示結果を画像として扱い、そこから文字を抽出してインデックスを作成する、という方法で、PDFのページも検索できるようにした。

2014-06-10 13:14:18
夢乃 @iamdreamers

しかし、OCRとて人間の作るものだから、当然の事ながら完璧ではない。そのため、「力」(ちから)と「カ」(か)、「口」(くち)と「ロ」(ろ)など、似た文字を間違って認識してしまうことがある。

2014-06-10 13:14:41
夢乃 @iamdreamers

これらをいちいち人間が目視確認してインデックスを修正していけば良いが、何しろ無数のWebページがある今、そんなことをやっている余裕は、どこにもない。結果として「原子カ」(げんしか)などの訳の分からない言葉が検索エンジンにかかる、ということになる。

2014-06-10 13:15:03

ソフトウェア技術者として

夢乃 @iamdreamers

そういう仕組みを知らずに「陰謀だ」などと騒ぐ人を「情弱」と切り捨てるのも良い、が・・・それは私たちソフトウェア技術者がやってはいけない。(仕組みを知ってなおかつ陰謀論を唱える人は、捨てておく)

2014-06-10 13:15:31
夢乃 @iamdreamers

前にも何度かつぶやいているけど、そういう人たちを「情弱」と切り捨てているうちは、ソフトウェアの技術はまだまだ黎明期にある、ということに他ならない、というのが私の考え。

2014-06-10 13:16:00
夢乃 @iamdreamers

だから、こういう人が出ないよう、ソフトウェアの技術(この場合はOCRによる文字認識の精度)を高めて、決してミスを犯さないようにしていくことが大事なのである。

2014-06-10 13:16:33
夢乃 @iamdreamers

(「決して」ミスしない、なんてのは事実上不可能なんだけど、でも、そこを目指して日々精進しなければならないのにゃ〜)

2014-06-10 13:17:15

関連まとめ

まとめ なぜストロンチウムはス卜口ンチウムになったのか 「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには? 18384 pv 99 15 users 12