なぜストロンチウムはス卜口ンチウムになったのか
PDFのテキスト抽出禁止では偽文書対策になりません。偽文書対策なら電子署名です nisc.go.jp/active/general…
2014-06-09 15:41:49PDF保護問題:この東電の2011年4月4日の回答からもう3年たっているのに→東京電力が放射線量測定データを「使いづらく」している理由 getnews.jp/archives/109133
2014-06-09 16:03:02go\.jp で"ス卜口ンチウム"となってる(た)HTMLなページは1つだけかな google.co.jp/search?hl=ja&q…
2014-06-09 16:32:292014-01-29 の時点で気づいてる人はいた bizliteracy.net/2014/01/29/str…
2014-06-09 16:35:09@h_okumura 基本的に同意するのですが、発端の nsr.go.jp/committee/yuus… で「ストロンチウム」が「ス卜口ンチウム」になっている理由は別のような…。私は自分が納得できる理由を見つけられていません。
2014-06-09 16:20:55なるほどその発端を調べてなかった(今は直ってますね)RT @tss_0101 基本的に同意するのですが、発端の nsr.go.jp/committee/yuus… で「ストロンチウム」が「ス卜口ンチウム」になっている理由は別のような…。私は自分が納得できる理由を見つけられていません。
2014-06-09 17:51:572014-06-08のアーカイブ web.archive.org/web/2014060809… では「ス卜口ンチウム」になっている。これは意図的な検索逃れで,騒がれて直したのかな
2014-06-09 18:03:43@h_okumura 奥村先生 教えてください。f.st-hatena.com/images/fotolif… 今朝取った話題のhtmlです。本日11時頃には文字修正が行われました。奥村先生のご説明は「コピーした時点で文字化けする仕組みが組まれてた。」ということでしょうか。OCRとは違いますよね。
2014-06-09 20:11:02@ichinoseshu ありがとうございます。「原子カ」「東京電カ」はOCRの問題,「ス卜口ンチウム」は故意の置き換えということでした。別の話をいっしょに書いてすみません。本日11時ごろとの情報もありがとうございます
2014-06-09 21:01:32今日つぶやいている問題は二つあります:①テキスト抽出禁止PDFで公開されたPDFをGoogleがOCRでテキスト化したために例えば「原子力」が「原子カ」に化けて検索にかからなくなる問題,②「ス卜口ンチウム」のように情報提供者が検索にかからないように似た文字に置き換える問題
2014-06-09 21:27:29“原子力規制委員会ホームページリニューアル及びCMS導入に係る構築等業務|物品・役務|調達|調達・予算執行|原子力規制委員会” htn.to/Wt6VJf1
2014-06-09 21:40:55nsr.go.jp/committee/yuus… で、なぜ 「ストロンチウム」が「ス卜口ンチウム」になったのかは理由がいくつか考えられる
2014-06-09 21:42:02(1)検索避けのために故意に書き換えた (2)入力担当者が「木亥火暴」「タト」「エロデータ」みたいな文字を置き換えた「ス卜口ンチウム」という文字列を使ったおふさげのメッセージのやりとりを身内とかで普段からやってて辞書に学習されてしまっていた
2014-06-09 21:42:43(3)PDFファイルをウェブに公開するためにCMSに登録する段階で何らかの理由でOCRの工程が入ってしまった (4)他のサイトからコピペで「ストロンチウム」をひっぱってきたつもりが「ス卜口ンチウム」をひっぱってきてしまった (5)担当者の純粋な悪戯
2014-06-09 21:42:57@tkusano (6)元データが印刷物しかなく、スキャナで取り込んでPDF化したときにそこだけ直し忘れた。
2014-06-09 22:13:10@hidemikisuzuki 元ページとリンクされてるPDFを見てみましたが、PowerPointあたりで作ったスライドをWindows上でAcrobat使ってPDF化したものっぽいですね。OCRは介在しなさそうです。
2014-06-09 22:21:27