関連まとめ。



重要語句

OCRとは 光学文字認識のこと。画像データ上にある文字と思われる部分を解析し、コンピューター上で扱える文字(テキスト)データに変換すること。 kotobank.jp/word/OCR
2014-06-09 03:47:45↓今回は原因らしきものについて触れているツイートから先に収録します。

「原子カ(←カタカナのカ)」で引っかかるから「隠蔽目的だ!」とかいうのなら、「火カ(←カタカナのカ)発電」「水カ発電」でも検索してみれば? google.com/search?client=… 同じく[pdf]ばかりひっかかる。
2014-06-08 16:51:34
OCRの誤変換の話は一度でも読んdeココみたいなソフトを使ってみれば納得出来るのに、騒いでいる残念な人は使ったことが無いのでしょうね(。’A`) エプソンのプリンターならソフト同梱だったはず。 自分の情弱を陰謀論と騒ぐのは恥ずかしいと思います。
2014-06-09 12:44:13
カタカナのカのほうで検索して出てくるのはPDFばかりだから、OCRの読み取りミスでしょうね RT @nakayamamikio: 原子カ(カタカナのカ)で検索して驚いた。情報公開は義務なのに電力会社は原子力(ちから)でなくて意図的に多くの情報でカタカナのカを利用して検索逃れ。東京
2014-06-08 23:23:52
"原子カ" っていうのもあるのか。いろいろ検索して見て回ると、文字の置換が発生している資料の殆どがPDFで、また検索語になりそうもない箇所でも変な置換が発生していたりする。おそらく殆どがOCRの認識ミスだと思います。検索避けの意図があるものがゼロとは言い切れないけど。
2014-06-08 22:18:36
"潮汐カ" で検索しても沢山資料が出るし、おそらく多くの人が思っている以上に、世の中では(おそらく元々デジタルデータの)資料を 印刷配布→スキャン→OCR という事が行われており、我々はそのムダと不便と非効率こそ糾弾しなければいけない時にきているのでは。
2014-06-08 22:25:39
あ、なるほど、テキスト抽出できないPDFだとGoogleがレンダリング結果をOCRするのか / “「"原子力(りょく)"ではなく"原子カ(か)"で検索すると出てくるpdf資料が「検索避けの隠蔽工作か!?」と一部で話題。 - Tog…” htn.to/gJZsDr
2014-06-09 13:43:01
東京電力→東京電カ(カタカナの「か」)問題は、単に自動文字認識ツールの読み間違いの可能性が高いと思う。なので書類系しか出てこない。おそらく東京電力と普通に検索しても書類はあるのだが、他の検索結果が多すぎて見えないだけかと。
2014-06-09 16:33:42
というか、「カタカナのか」で検索避けしてるとして、その検索結果の書類に普通に「東京電力」とか「原子力」と漢字で書かれてる文字列があるんだから、普通に考えて何らかのシステム的理由で混在してしまったと考えるべきでしょ。陰謀じゃない。
2014-06-09 16:38:22
「ストロンチウム」や「原子力」だけでなく「潮汐力」など全く隠蔽する意味のない物でもでも発生しているとすると、隠蔽というよりOCRの読み取りミスがほとんどという可能性が高そうだなぁ。> twitter.com/hibikilla30/st… twitter.com/hrk/status/475…
2014-06-08 23:14:23
「原子カ」とか「ス卜口ンチウム」って、マヌケOCRのせいだと好意的に解釈してるんだけど、PDFの中身は正常でWeb上の見出しだけとかって、謎と言えば謎ではある。きっとお役所らしい笑える理由があると思うんだけどな。
2014-06-08 23:40:24
Googleで「原子力 PDF」(ちから)での検索結果に出てくるPDFはテキストをコピーできる。一方、カタカナでの結果のPDFはコピー不可に保護されている。 GoogleはPDFのテキストを取得して蓄積する。テキストが保護されていればOCR的に抽出する。その精度の問題。
2014-06-09 01:36:59
PDFを作った人、というよりも、「PDFを読み込んで検索インデックスを作っているgoogle」じゃないでしょうか… PDFを開いてカタカナ「原子カ」を検索しても、引っかかりません。 #政府MS #原発PA #NoNUKE @simanekomama
2014-06-09 01:58:21
とはいえ、「原子カ(カタカナ)」でgoogle検索→ google.co.jp/search?q=%E5%8… の2番目の浜岡のPDFとか、頭に変な字"䛂"が付いているが、PDFを開くと無い。そこには"「"が表示されている。試しに"䛂"でPDF内を検索すると、"「"の場所がヒットする。…
2014-06-09 02:21:16
…ってことは、PDFの内部的なコードに、"「"が、"䛂"に変換されてしまう何かの仕掛けがあるんだろう。googleは、そのクセはまだ織り込んでいないのだろう。 #政府MS #原発PA #NoNUKE
2014-06-09 02:23:59
相変わらず「東電は東京電力や原子力の『チカラ』をカタカナの『か』に置き換えて発表することにより検索に引っかからないようにしている。隠蔽だ!」というのが絶賛拡散中なので一言だけ。 「交渉力とか人間力という言葉の『チカラ』をカタカナの『か』に置き換えてググってみてくださいな、一度」
2014-06-09 15:02:57
「原子カ」「東京電カ」が検索避けに使われている! みたいな話が沸いてるけど、「応カ」とか「カ持ち」とかで検索すれば、同じ例がいくらでも出てくるんだよな…
2014-06-09 12:50:40
さっきの原子力と原子カの話、水力と水カとか、まあなんでもいいんだけど、そういうのでも同じような状態になるんで、原子力がらみの話だから検索避けとかとは違うんじゃねーのって思ってる
2014-06-09 10:04:07
livedoor.blogimg.jp/takenoko_shobo… こっちのほうが分かりやすいと思いますけど、これでもかなりマシなほうなんですよ。 QT @Mickey_Trunk: ス卜口ンチウムを機会に反原発派は高性
2014-06-09 03:38:55
blog.livedoor.jp/takenoko_shobo… 猥褻風俗史では、結局OCRは断念したんですよ。 QT @Mickey_Trunk: @azukiglg ありがとうございます。「猥褻風俗史」でOCRの話をされているのを思い出して、ググって出てきたものを引用させてもらいました。
2014-06-09 03:49:55