2014年6月10日

なぜストロンチウムはス卜口ンチウムになったのか

「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには?

インターネット社会震災原発ストロンチウム

tkusano
18384
7
2
15
12

現在のところ検証およびメディアによる取材によれば、2つの理由が推測される模様。

原子カ(カ、はカタカナ)などで検索して見つかったほとんどのPDFはテキストのコピペを禁止する設定がされており、Googleが検索エンジンに登録する際にOCRを使って文字に変換したため (参考: 原子カ（カタカナ）問題は誤報ではないか？)
PDFではなくHTMLでストロンチウムがス卜口ンチウム(卜口、はボク+クチ)になってた最初の例は議事次第をOCRにかけたのではないか、という説

いずれにせよワークフローやリテラシー等の問題であり、何かを隠したいという明確な陰謀というよりは意図せざる「陰謀」ではないか、という話。

発端となったページ。これは修正前

リンク web.archive.org 第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ｜会議｜原子力規制委員会のホームページです。原子力規制委員会の情報公開に関する情報を紹介しています。

修正後

リンク www.nsr.go.jp 第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ｜会議｜原子力規制委員会のホームページです。原子力規制委員会の情報公開に関する情報を紹介しています。

Masanori Kusunoki / 楠正憲 @masanork

小賢しい細工のお陰で、逆に東電が何を隠したいのかが可視化される構図 / “電力会社が原子力、東京電力の力（ちから）をカタカナのカにしてネットで検索避けをしていると話題に : はちま起稿” htn.to/pPyoTs

2014-06-09 09:05:28

ot2sy39 @ot2sy39

@masanork @RodinaTP これOCRの誤読だと思うので、あまりかんぐらないほうが。いわゆるハンロンの剃刀というやつで。

2014-06-09 09:12:26

リンク Wikipedia ハンロンの剃刀ハンロンの剃刀（ハンロンのかみそり、英: Hanlon's razor）とは、次の文で表現される考え方のことである。例えば、ある製品に欠陥が見つかった場合、（大抵の場合、一般論としては）それは製造した企業が無能であるか愚かであるということを示しているのであって、消費者を困らせるために企業が悪意を持って欠陥を忍ばせたわけではない、という考え方を示すのに用いられる。上記の文言それ自体は、20世紀のペンシルベニア州に住むロバート・J・ハンロン (Robert J. Hanlon) という人の発言に由来するも

Masanori Kusunoki / 楠正憲 @masanork

@ot2sy39 @RodinaTP いや、それ最初に疑ったけどスキャンされた資料だけでなく手打ちのリンクとかもそうなってるんで意図的ではないかな？

2014-06-09 09:19:04

ot2sy39 @ot2sy39

@masanork @RodinaTP あとは打ってるのが日本人じゃない説ですね。あまり効果があるとは考えられないに、バレた時の悪印象が尋常でないので、悪意でこういうことやるとは思えません。

2014-06-09 09:23:06

Masanori Kusunoki / 楠正憲 @masanork

site:tepco.co.jpで絞るとはっきり傾向が出てくる。トップはどちらも東京電力のトップページ、次は東京電力が個人のお客様で計55000件、東京電カが停電情報で計1100件。細かく使い分けてたんだとしたら中の方々はご苦労なことで

2014-06-09 09:26:27

Haruhiko Okumura @h_okumura

「原子カ」（カタカナ）でググれるPDF，保護設定されているためGoogleのOCRが間違ったらしい。でもPDFタイトルは機械的に抽出できるはず（例：docsplit title *.pdf）。Googleの手抜き？（いずれにせよ本文抽出はOCRしか手がないので保護やめてほしい）

2014-06-09 09:42:48

Haruhiko Okumura @h_okumura

↓補足：PDF titleがないものもある。これはOCRに頼らざるをえない

2014-06-09 09:48:24

Haruhiko Okumura @h_okumura

これも保護PDFをOCRで読んだため→ RT @masanork site:tepco.co.jpで絞るとはっきり傾向が出てくる。トップはどちらも東京電力のトップページ、次は東京電力が個人のお客様で計55000件、東京電カが停電情報で計1100件。…

2014-06-09 09:53:53

Masanori Kusunoki / 楠正憲 @masanork

@h_okumura GoogleのことだからOCRとか画像解析だけでなく辞書と突き合わせて補正しそうなものですが不思議ですね

2014-06-09 09:58:49

Haruhiko Okumura @h_okumura

ですよね。手抜きなんでしょう RT @masanork @h_okumura GoogleのことだからOCRとか画像解析だけでなく辞書と突き合わせて補正しそうなものですが不思議ですね

2014-06-09 10:00:44

リンク t.co Google ウェブマスター向け公式ブログ: 検索結果における PDF ファイルの取り扱いについてのヒント Google ウェブマスター向け公式ブログへようこそ！このブログではウェブマスターツールの最新情報や Google のクロール・インデックス・ランキングについて、初心者の方からホームページ運営、サイト構築を仕事にしている方まで、ウェブマスターの皆様に役立つ情報をお届けします。

Takayuki KUSANO @tkusano

原子「力(漢字)」が、原子「カ(カタカナ) 」となる話はこれが原因の一 > "テキストが画像として埋め込まれている場合は、Google ではその画像を OCR （英語）アルゴリズムで処理し、テキストを抽出することができます" htn.to/xyGdjBNZ

2014-06-09 11:56:22

Takayuki KUSANO @tkusano

原子カ(カタカナ)で検索してひっかかるけど、PDFファイルのメタデータに原子力(漢字)が埋め込まれてる例 chuden.co.jp/energy/hamaoka…

2014-06-09 12:04:49

Haruhiko Okumura @h_okumura

原子カ・東京電カ・ス卜口ンチウム等の問題は，画像PDFに限らず，ワープロソフトで作ったものもテキスト抽出禁止の保護設定しているのが原因のOCR化け。わざわざテキスト抽出禁止するのは「検索避けの隠蔽工作」にまさに該当する

2014-06-09 12:53:09