2014年6月10日

なぜストロンチウムはス卜口ンチウムになったのか

「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには?

インターネット震災社会原発ストロンチウム

前へ 1 ・・ 4 5

まとめ

「"原子力（りょく）"ではなく"原子カ（か）"で検索すると出てくるpdf資料が「検索避けの隠蔽工作か！？」と一部で話題。最初のリンクの誤字は誤読み取り資料からのコピペですかね。 57610 pv 748 24 users 377

佐々木俊尚 @sasakitoshinao

OCR読み取りミスなんですね。見たいものしか見ない人たちもいる。 RT @any_k 「原子カ(か)の文字列のOCR処理について、陰謀論が吹き荒れているので、まとめてみました。後々都市伝説化しそうな感じです。 togetter.com/li/677948

2014-06-10 15:17:48

@sasakitoshinao はい、そうなんです。これからは再利用しやすい形で公開を、と求めるのならわかるのですけれど…。

2014-06-10 15:51:44

Haruhiko Okumura @h_okumura

.@sasakitoshinao @any_k 単なるOCRミスで済ませず，なぜいまだに保護PDFや画像PDFで情報発信してGoogleのテキスト抽出もOCRに頼らざるをえないかをもっと問題視すべきではないかと思います

2014-06-10 15:48:29

@h_okumura @sasakitoshinao それには一理ありますが、テキストデータをつけ、校正するコストが増してしまうと公開枚数や公開の迅速性に弊害がでかねないかな、とも思います。各種数値データが主な文書はより利用しやすい形になるのが望ましいですね。

2014-06-10 15:57:22

Haruhiko Okumura @h_okumura

@any_k @sasakitoshinao いや保護設定をしないだけですからコストは減ります

2014-06-10 15:58:38

@h_okumura テキストデータを含まないpdfの保護設定に関しては、google側でのOCRの問題は解決せず、一方テキストデータをつけるであれば利用しやすくなる代わりにコストが増えたりはしないものでしょうか…？

2014-06-10 16:08:49

@h_okumura wordなりの元データからのpdf出力であれば、後者についてはコスト増大は抑えられそうですが。

2014-06-10 16:09:35

Haruhiko Okumura @h_okumura

@any_k 例えば「原子カ」で検索できるPDFをいくつか見てください。最初からWordなりで作られているのに保護設定などでテキスト抽出を禁止しているのです。何のため？

2014-06-10 16:11:05

@h_okumura wordなどからの直接出力のものに関しては保護設定をかけないほうが、というのには同意いたします。全てのpdf文章に徹底、ではなく元のデータがすぐ手元にあり、pdf出力が可能な場合はということでよいのでしょうか。

2014-06-10 16:19:36

リンク www.nsr.go.jp 原子力規制委員会ホームページリニューアル及びCMS 導入に係る調達支援等及び工程管理支援業務｜物品・役務｜調達｜調達・予算執行｜原子力規制委員会原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。

リンク www.nsr.go.jp 意見招請に関する公示｜物品・役務｜調達｜調達・予算執行｜原子力規制委員会原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。

リンク www.nsr.go.jp 原子力規制委員会ホームページリニューアル及びCMS導入に係る構築等業務の意見招請に対する回答について｜物品・役務｜調達｜調達・予算執行｜原子力規制委員会原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。

リンク www.nsr.go.jp 原子力規制委員会ホームページリニューアル及びＣＭＳ導入に係る構築等業務｜物品・役務｜調達｜調達・予算執行｜原子力規制委員会原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。

リンク www.nsr.go.jp 平成26年度原子力規制委員会ホームページの運用に関するコンサルティング業務｜物品・役務｜調達｜調達・予算執行｜原子力規制委員会原子力規制委員会のホームページです。原子力規制委員会の調達情報を紹介しています。

Takayuki KUSANO @tkusano

“"交力率的丿ヾイオエタノ一ル" - Google 検索” htn.to/jaSCEg

2014-06-10 18:22:28

前へ 1 ・・ 4 5