たぶん、こちらの画面のほうがよりはっきりわかります livedoor.blogimg.jp/takenoko_shobo… QT @Mickey_Trunk: @azukiglg ありがとうございます。「猥褻風俗史」でOCRの話をされているのを思い出して、ググって出てきたものを引用させてもらいました。
2014-06-09 03:50:15平仮名・カタカナの書体が全然違いますからねえ。また、現在「縦書き認識能力が最も高い」とされる普及版OCRソフトである読取革命は、Ver15の段階でUTF-8に非対応ですので、旧字体の一部は保存できないんです QT @Rogue_Monk: @azukiglg OCRソフトは現在
2014-06-09 04:06:23猥褻風俗史、奇態流行史、ともに国立国会図書館・近代デジタルライブラリーにスキャン版が存在するんだけど、データ容量の節約のためか、スキャンが行われた時期がデジタイズの黎明期であったせいなのかわからんけど、二値化されててぼやけてるとか、滲んでるとか、惨憺たる状態で。
2014-06-09 04:08:29結局どちらも竹の子書房として原本(当時刊行されていた現物古書)を手に入れてそれをスキャンするところからやってるんだけど、それですら(原本すらw)そのままOCRかけてもすんなり取り込めない。
2014-06-09 04:09:24取り込めてたとしたって、結局「本当にそうか?」を確認する校正作業は手間掛かるわけで。 先のス卜口ンチウムのアレなんかは、「いいからとにかく早く出せ!」という圧力と正確性の板挟みになってたんだろうなーと思うよ。
2014-06-09 04:10:31@any_k こちらの説明が決定的だと思われます。 twitter.com/shuji/status/4… 検索でかかるPDF書類が、プロテクトされているので、GoogleのOCRによって検索されている模様。 実際、該当するPDF書類を開いて文字検索が出来ない例が多いです。
2014-06-09 04:24:55あ、これはGoogleのPDF→OCR的テキスト抽出の問題だな。リンク先のPDFからの取得はパスワードで保護されてるから、画像的に読むしかない。
2014-06-09 00:49:36あ、これはGoogleのPDF→OCR的テキスト抽出の問題だな。リンク先のPDFからの取得はパスワードで保護されてるから、画像的に読むしかない。
2014-06-09 00:49:36@any_k これらのPDFファイル、文字列のコピーも出来ないのですよ。 この場合、Googleは文字データを取得出来ませんから、イメージからGoogleのOCRにて検索インデックス作る事になります。 それ故に、GoogleのOCRの精度に依存すると考えられます。
2014-06-09 04:32:56@any_k その後、また調べていましたが、GoogleがプロテクトされたPDFを読み取った過程での間違いばかりでは無く、元ファイルに確かに誤字があるものもごく少数見つかりました。 しかし、それはごく少数で、元ファイル作成時のOCR読み取りの不具合であると考えるが妥当です。
2014-06-09 08:53:32@Takaoyohey 検索騒動、すでに検証結果見てない人が陰謀だと決めつけて拡散してますねー。彼らはその後の検証はおっかけなそうですし、しばらく不安を煽るネタに使われそうですね。
2014-06-09 02:32:13それはそれでボクは全然構いませんが、検証もせず何事にも『決めつけ』てしまう人の人生って…何か寂しい気もしますね。 @any_k: 検索騒動、すでに検証結果見てない人が陰謀だと決めつけて拡散してますねー。彼らはその後の検証はおっかけなそうですし、しばらく不安を煽るネタに使われそう
2014-06-09 02:36:58@Takaoyohey それこそ、今twitterを原子カ(か)で検索してみると、ツイート一つを拡散して陰謀論が一人歩きしていく様子を見ることができますね。
2014-06-09 02:44:10OCRの誤認識を陰謀論してる人は組版校正等に十分なお支払いを頂ける方と信じております。組版業界への貢献をぜひよろしくお願いしております。
2014-06-09 12:20:05この件での陰謀論は、おおよそこういった想像のもと育てられているようです。
まんが「誤字等」 bogonatsuko.blog45.fc2.com/blog-entry-130… 原子力規制委員会がストロンチウムに当て字を用いていた件について pic.twitter.com/ziPSFITWxD
2014-06-09 20:36:26当て字をするということは、自分が悪事をはたらいていることを自覚しているということですね。 QT @hopi_domingo ストロンチウムの他にも、当て字 反省するどころか、隠蔽して、原発推進..規制委員…? @nasukoB pic.twitter.com/I89735gVdJ
2014-06-10 06:24:50↓話題が広がる様子。高尾さんは検証を続けられてはいましたが…。陰謀論として早速広まっているようです。
原子力規制委員会サイトの資料リンク、「ストロンチウム」という文字列に凝った細工を施してある。bit.ly/1nnFUuX 「ト」が「卜(ぼく)」、「ロ」が「口(くち)」。わざわざ手間をかけてこんな細工をする理由は何だ? pic.twitter.com/0ACbpN0oH1
2014-06-07 15:38:54本当だね。確かに検索する際に『東京電(力)←漢字』と『東京電(カ)←カナ』では出てくる内容が違う。因みに、左の写真は、力を漢字で検索。右は、カをカナで検索。コレは意図的でしかないが、おそらく隠したい内容は、カナの方にあると思ってる。 pic.twitter.com/7DMb50Y4Ur
2014-06-08 15:54:58東京電力と 東京電カの違い。 力 ←漢字 カ ←カナ ストロンチウムと ス卜口ンチウムの違い。 ロ ←カナ 口 ←漢字 ト ←カナ 卜 ←漢字
2014-06-08 15:58:36想像通り…東京電カ ←カナで検索すると原発事故に関する事が出るわ出るわ。原子力規制庁も東電もこの手法を使ってるが…みんなで騒いで東京新聞辺りからテレビまでニュースに出来ないかな? google.co.jp/search?q=%E6%9…
2014-06-08 16:03:55実験検証結果。 東京電力 力を漢字検索 google.co.jp/search?q=%E6%9… 東京電カ カをカナで検索 google.co.jp/search?q=%E6%9…
2014-06-08 16:13:33日本の膿とはこういう部分でもあるのでしょうね。何かを隠す理由がなければこの様な事はしないが、隠す理由があるから隠す人間の性。@860masjp: 原子カ発電(げんしかはつでん)相当前から、組織的にやってたんだろうね、逆SEO対策を。 pic.twitter.com/JaddBY5OpK”
2014-06-08 16:16:29確かに、3パターンいけますね。 @hiromi19610226: もしかして スト口ンチウム、スト口ンチウム、ス卜口ンチウムの 3パターン? 全部、違う変換です ↑”
2014-06-08 16:39:52ストロンチウム 全てカタカナ。 スト口ンチウム ロを漢字の口に変換。 ス卜ロンチウム トを漢字の卜に変換。 ス卜口ンチウム ロとトを漢字に変換。 厳密に言えば4パターンあるよね。
2014-06-08 16:51:43