なぜストロンチウムはス卜口ンチウムになったのか
「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには?
まとめ
「"原子力(りょく)"ではなく"原子カ(か)"で検索すると出てくるpdf資料が「検索避けの隠蔽工作か!?」と一部で話題。
最初のリンクの誤字は誤読み取り資料からのコピペですかね。
57610 pv
748
24 users
377
佐々木俊尚
@sasakitoshinao
OCR読み取りミスなんですね。見たいものしか見ない人たちもいる。 RT @any_k 「原子カ(か)の文字列のOCR処理について、陰謀論が吹き荒れているので、まとめてみました。後々都市伝説化しそうな感じです。 togetter.com/li/677948
2014-06-10 15:17:48
Haruhiko Okumura
@h_okumura
.@sasakitoshinao @any_k 単なるOCRミスで済ませず,なぜいまだに保護PDFや画像PDFで情報発信してGoogleのテキスト抽出もOCRに頼らざるをえないかをもっと問題視すべきではないかと思います
2014-06-10 15:48:29
兄ぃ
@any_k
@h_okumura @sasakitoshinao それには一理ありますが、テキストデータをつけ、校正するコストが増してしまうと公開枚数や公開の迅速性に弊害がでかねないかな、とも思います。各種数値データが主な文書はより利用しやすい形になるのが望ましいですね。
2014-06-10 15:57:22
兄ぃ
@any_k
@h_okumura テキストデータを含まないpdfの保護設定に関しては、google側でのOCRの問題は解決せず、一方テキストデータをつけるであれば利用しやすくなる代わりにコストが増えたりはしないものでしょうか…?
2014-06-10 16:08:49
Haruhiko Okumura
@h_okumura
@any_k 例えば「原子カ」で検索できるPDFをいくつか見てください。最初からWordなりで作られているのに保護設定などでテキスト抽出を禁止しているのです。何のため?
2014-06-10 16:11:05
兄ぃ
@any_k
@h_okumura wordなどからの直接出力のものに関しては保護設定をかけないほうが、というのには同意いたします。全てのpdf文章に徹底、ではなく元のデータがすぐ手元にあり、pdf出力が可能な場合はということでよいのでしょうか。
2014-06-10 16:19:36
リンク
www.nsr.go.jp
原子力規制委員会ホームページリニューアル及びCMS 導入に係る調達支援等及び工程管理支援業務|物品・役務|調達|調達・予算執行|原子力規制委員会
原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。
リンク
www.nsr.go.jp
原子力規制委員会ホームページリニューアル及びCMS導入に係る構築等業務の意見招請に対する回答について|物品・役務|調達|調達・予算執行|原子力規制委員会
原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。
リンク
www.nsr.go.jp
原子力規制委員会ホームページリニューアル及びCMS導入に係る構築等業務|物品・役務|調達|調達・予算執行|原子力規制委員会
原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。
リンク
www.nsr.go.jp
平成26年度原子力規制委員会ホームページの運用に関するコンサルティング業務|物品・役務|調達|調達・予算執行|原子力規制委員会
原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。