更新 2014年6月14日作成 2014年6月9日

「"原子力（りょく）"ではなく"原子カ（か）"で検索すると出てくるpdf資料が「検索避けの隠蔽工作か！？」と一部で話題。

最初のリンクの誤字は誤読み取り資料からのコピペですかね。

震災 PDF 原発 IT 資料陰謀論 OCR

any_k_tg
57465
60
83
24
377

164

前へ 1 2 3 ・・ 5 次へ

加藤AZUKI @azukiglg

たぶん、こちらの画面のほうがよりはっきりわかります livedoor.blogimg.jp/takenoko_shobo… QT @Mickey_Trunk: @azukiglg ありがとうございます。「猥褻風俗史」でOCRの話をされているのを思い出して、ググって出てきたものを引用させてもらいました。

2014-06-09 03:50:15

加藤AZUKI @azukiglg

平仮名・カタカナの書体が全然違いますからねえ。また、現在「縦書き認識能力が最も高い」とされる普及版OCRソフトである読取革命は、Ver15の段階でUTF-8に非対応ですので、旧字体の一部は保存できないんです QT @Rogue_Monk: @azukiglg OCRソフトは現在

2014-06-09 04:06:23

加藤AZUKI @azukiglg

猥褻風俗史、奇態流行史、ともに国立国会図書館・近代デジタルライブラリーにスキャン版が存在するんだけど、データ容量の節約のためか、スキャンが行われた時期がデジタイズの黎明期であったせいなのかわからんけど、二値化されててぼやけてるとか、滲んでるとか、惨憺たる状態で。

2014-06-09 04:08:29

加藤AZUKI @azukiglg

結局どちらも竹の子書房として原本（当時刊行されていた現物古書）を手に入れてそれをスキャンするところからやってるんだけど、それですら（原本すらｗ）そのままOCRかけてもすんなり取り込めない。

2014-06-09 04:09:24

加藤AZUKI @azukiglg

取り込めてたとしたって、結局「本当にそうか？」を確認する校正作業は手間掛かるわけで。先のス卜口ンチウムのアレなんかは、「いいからとにかく早く出せ！」という圧力と正確性の板挟みになってたんだろうなーと思うよ。

2014-06-09 04:10:31

タクラミックス @takuramix

@any_k こちらの説明が決定的だと思われます。 twitter.com/shuji/status/4… 検索でかかるPDF書類が、プロテクトされているので、GoogleのOCRによって検索されている模様。実際、該当するPDF書類を開いて文字検索が出来ない例が多いです。

2014-06-09 04:24:55

shuji yamamoto @shuji

あ、これはGoogleのPDF→OCR的テキスト抽出の問題だな。リンク先のPDFからの取得はパスワードで保護されてるから、画像的に読むしかない。

2014-06-09 00:49:36

shuji yamamoto @shuji

あ、これはGoogleのPDF→OCR的テキスト抽出の問題だな。リンク先のPDFからの取得はパスワードで保護されてるから、画像的に読むしかない。

2014-06-09 00:49:36

タクラミックス @takuramix

@any_k これらのPDFファイル、文字列のコピーも出来ないのですよ。この場合、Googleは文字データを取得出来ませんから、イメージからGoogleのOCRにて検索インデックス作る事になります。それ故に、GoogleのOCRの精度に依存すると考えられます。

2014-06-09 04:32:56

タクラミックス @takuramix

@any_k その後、また調べていましたが、GoogleがプロテクトされたPDFを読み取った過程での間違いばかりでは無く、元ファイルに確かに誤字があるものもごく少数見つかりました。しかし、それはごく少数で、元ファイル作成時のOCR読み取りの不具合であると考えるが妥当です。

2014-06-09 08:53:32

兄ぃ @any_k

@Takaoyohey 検索騒動、すでに検証結果見てない人が陰謀だと決めつけて拡散してますねー。彼らはその後の検証はおっかけなそうですし、しばらく不安を煽るネタに使われそうですね。

2014-06-09 02:32:13

Takao yohey @takaoyohey

それはそれでボクは全然構いませんが、検証もせず何事にも『決めつけ』てしまう人の人生って…何か寂しい気もしますね。 @any_k: 検索騒動、すでに検証結果見てない人が陰謀だと決めつけて拡散してますねー。彼らはその後の検証はおっかけなそうですし、しばらく不安を煽るネタに使われそう

2014-06-09 02:36:58

兄ぃ @any_k

@Takaoyohey それこそ、今twitterを原子カ（か）で検索してみると、ツイート一つを拡散して陰謀論が一人歩きしていく様子を見ることができますね。

2014-06-09 02:44:10

くじらのおじさん @kujira_binder

ＯＣＲの誤認識を陰謀論してる人は組版校正等に十分なお支払いを頂ける方と信じております。組版業界への貢献をぜひよろしくお願いしております。

2014-06-09 12:20:05

この件での陰謀論は、おおよそこういった想像のもと育てられているようです。

なすこ @nasukoB

まんが「誤字等」 bogonatsuko.blog45.fc2.com/blog-entry-130… 原子力規制委員会がストロンチウムに当て字を用いていた件について pic.twitter.com/ziPSFITWxD

2014-06-09 20:36:26

拡大

新保吉章 @pat052

当て字をするということは、自分が悪事をはたらいていることを自覚しているということですね。　QT　@hopi_domingo ストロンチウムの他にも、当て字反省するどころか、隠蔽して、原発推進．．規制委員…？　@nasukoB pic.twitter.com/I89735gVdJ

2014-06-10 06:24:50

拡大

↓話題が広がる様子。高尾さんは検証を続けられてはいましたが…。陰謀論として早速広まっているようです。

山崎雅弘 @mas__yamazaki

原子力規制委員会サイトの資料リンク、「ストロンチウム」という文字列に凝った細工を施してある。bit.ly/1nnFUuX　「ト」が「卜（ぼく）」、「ロ」が「口（くち）」。わざわざ手間をかけてこんな細工をする理由は何だ？ pic.twitter.com/0ACbpN0oH1

2014-06-07 15:38:54

拡大

Takao yohey @takaoyohey

本当だね。確かに検索する際に『東京電（力）←漢字』と『東京電（カ）←カナ』では出てくる内容が違う。因みに、左の写真は、力を漢字で検索。右は、カをカナで検索。コレは意図的でしかないが、おそらく隠したい内容は、カナの方にあると思ってる。 pic.twitter.com/7DMb50Y4Ur

2014-06-08 15:54:58

拡大

Takao yohey @takaoyohey

東京電力と東京電カの違い。力 ←漢字カ ←カナストロンチウムとス卜口ンチウムの違い。ロ ←カナ口 ←漢字ト ←カナ卜 ←漢字

2014-06-08 15:58:36

Takao yohey @takaoyohey

想像通り…東京電カ ←カナで検索すると原発事故に関する事が出るわ出るわ。原子力規制庁も東電もこの手法を使ってるが…みんなで騒いで東京新聞辺りからテレビまでニュースに出来ないかな？ google.co.jp/search?q=%E6%9…

2014-06-08 16:03:55

Takao yohey @takaoyohey

実験検証結果。東京電力力を漢字検索 google.co.jp/search?q=%E6%9… 東京電カカをカナで検索 google.co.jp/search?q=%E6%9…

2014-06-08 16:13:33

Takao yohey @takaoyohey

日本の膿とはこういう部分でもあるのでしょうね。何かを隠す理由がなければこの様な事はしないが、隠す理由があるから隠す人間の性。@860masjp: 原子カ発電(げんしかはつでん)相当前から、組織的にやってたんだろうね、逆SEO対策を。 pic.twitter.com/JaddBY5OpK”

2014-06-08 16:16:29

拡大

Takao yohey @takaoyohey

確かに、３パターンいけますね。 @hiromi19610226: もしかしてスト口ンチウム、スト口ンチウム、ス卜口ンチウムの 3パターン？全部、違う変換です ↑”

2014-06-08 16:39:52

Takao yohey @takaoyohey

ストロンチウム全てカタカナ。スト口ンチウムロを漢字の口に変換。ス卜ロンチウムトを漢字の卜に変換。ス卜口ンチウムロとトを漢字に変換。厳密に言えば４パターンあるよね。

2014-06-08 16:51:43

前へ 1 2 3 ・・ 5 次へ

この件での陰謀論は、おおよそこういった想像のもと育てられているようです。

↓話題が広がる様子。高尾さんは検証を続けられてはいましたが…。陰謀論として早速広まっているようです。

いま話題のタグ