なぜストロンチウムはス卜口ンチウムになったのか
現在のところ検証およびメディアによる取材によれば、2つの理由が推測される模様。
- 原子カ(カ、はカタカナ)などで検索して見つかったほとんどのPDFはテキストのコピペを禁止する設定がされており、Googleが検索エンジンに登録する際にOCRを使って文字に変換したため (参考: 原子カ(カタカナ)問題は誤報ではないか?)
- PDFではなくHTMLでストロンチウムがス卜口ンチウム(卜口、はボク+クチ)になってた最初の例は議事次第をOCRにかけたのではないか、という説
いずれにせよワークフローやリテラシー等の問題であり、何かを隠したいという明確な陰謀というよりは意図せざる「陰謀」ではないか、という話。
発端となったページ。これは修正前
修正後
小賢しい細工のお陰で、逆に東電が何を隠したいのかが可視化される構図 / “電力会社が原子力、東京電力の力(ちから)をカタカナのカにしてネットで検索避けをしていると話題に : はちま起稿” htn.to/pPyoTs
2014-06-09 09:05:28@masanork @RodinaTP これOCRの誤読だと思うので、あまりかんぐらないほうが。いわゆるハンロンの剃刀というやつで。
2014-06-09 09:12:26@ot2sy39 @RodinaTP いや、それ最初に疑ったけどスキャンされた資料だけでなく手打ちのリンクとかもそうなってるんで意図的ではないかな?
2014-06-09 09:19:04@masanork @RodinaTP あとは打ってるのが日本人じゃない説ですね。あまり効果があるとは考えられないに、バレた時の悪印象が尋常でないので、悪意でこういうことやるとは思えません。
2014-06-09 09:23:06site:tepco.co.jpで絞るとはっきり傾向が出てくる。トップはどちらも東京電力のトップページ、次は東京電力が個人のお客様で計55000件、東京電カが停電情報で計1100件。細かく使い分けてたんだとしたら中の方々はご苦労なことで
2014-06-09 09:26:27「原子カ」(カタカナ)でググれるPDF,保護設定されているためGoogleのOCRが間違ったらしい。でもPDFタイトルは機械的に抽出できるはず(例:docsplit title *.pdf)。Googleの手抜き?(いずれにせよ本文抽出はOCRしか手がないので保護やめてほしい)
2014-06-09 09:42:48これも保護PDFをOCRで読んだため→ RT @masanork site:tepco.co.jpで絞るとはっきり傾向が出てくる。トップはどちらも東京電力のトップページ、次は東京電力が個人のお客様で計55000件、東京電カが停電情報で計1100件。…
2014-06-09 09:53:53@h_okumura GoogleのことだからOCRとか画像解析だけでなく辞書と突き合わせて補正しそうなものですが不思議ですね
2014-06-09 09:58:49ですよね。手抜きなんでしょう RT @masanork @h_okumura GoogleのことだからOCRとか画像解析だけでなく辞書と突き合わせて補正しそうなものですが不思議ですね
2014-06-09 10:00:44原子「力(漢字)」が、原子「カ(カタカナ) 」となる話はこれが原因の一 > "テキストが画像として埋め込まれている場合は、Google ではその画像を OCR (英語)アルゴリズムで処理し、テキストを抽出することができます" htn.to/xyGdjBNZ
2014-06-09 11:56:22原子カ(カタカナ)で検索してひっかかるけど、PDFファイルのメタデータに原子力(漢字)が埋め込まれてる例 chuden.co.jp/energy/hamaoka…
2014-06-09 12:04:49原子カ・東京電カ・ス卜口ンチウム等の問題は,画像PDFに限らず,ワープロソフトで作ったものもテキスト抽出禁止の保護設定しているのが原因のOCR化け。わざわざテキスト抽出禁止するのは「検索避けの隠蔽工作」にまさに該当する
2014-06-09 12:53:09たとえば、このPDFはテキストデータなんだけど、テキスト抽出禁止になっているので、「原子力」をコピペすると、「ཎ Ꮚ ຊ」になる。検索や再利用が難しくする以外に、テキスト抽出禁止にする意義は無いだろう。 nsr.go.jp/archive/nisa/s…
2014-06-09 13:02:39水産資源評価のPDFもテキスト抽出不可のものが混在している。それらのPDFのデータを使う場合には、自分で打ち直す必要があり、データ再利用の敷居を高めている。
2014-06-09 13:04:59↓これさ、CiNiiにのっけてる論文でもOCRしないで保護してるやつとか山ほどあるよ。あれは保護の解除に手がかかるので(保存してやり直したりしないといけない)呪われるべき
2014-06-09 21:05:43震災直後の混乱期にファクスをスキャンしたPDFが出回ったのと,いまもデータの検索・再利用をきらってテキスト抽出禁止PDFを作り続けているのでは,わけが違う
2014-06-09 15:04:34