なぜストロンチウムはス卜口ンチウムになったのか

「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには?
26
前へ 1 2 ・・ 5 次へ
リンク sites.google.com Shinsai FaxOCR 災害支援に向けたオープンソースのFaxOCRシステム
Haruhiko Okumura @h_okumura

PDFのテキスト抽出禁止では偽文書対策になりません。偽文書対策なら電子署名です nisc.go.jp/active/general…

2014-06-09 15:41:49
Haruhiko Okumura @h_okumura

PDF保護問題:この東電の2011年4月4日の回答からもう3年たっているのに→東京電力が放射線量測定データを「使いづらく」している理由 getnews.jp/archives/109133

2014-06-09 16:03:02
リンク ガジェット通信 東京電力が放射線量測定データを「使いづらく」している理由 – ガジェット通信 ※図A ●2011年4月13日追記 経済産業省情報プロジェクト室及び東京電力内関係者各位のご尽力により、福島原発モニタリングデータのCSVファイルでの公開がはじまりました。小さいようですが、大きな一歩だと思います。最適な方法で...
Takayuki KUSANO @tkusano

go\.jp で"ス卜口ンチウム"となってる(た)HTMLなページは1つだけかな google.co.jp/search?hl=ja&q…

2014-06-09 16:32:29
リンク リテラシーマーケティング研究所 「ストロンチウム」と「ス卜口ンチウム」・・・ メモ。 ネットで拾ったのたが・・・。 原子力規制委員会 第10回特定原子力施設監視・評価検討会汚染水対策検討ワ&
Takayuki KUSANO @tkusano

IOゲー、みたいな関係者内部のスラングが間違って出てきた、とかだったりして

2014-06-09 16:35:54
tss (夜行性昼行燈)🌻😨🌻 @tss_0101

@h_okumura 基本的に同意するのですが、発端の nsr.go.jp/committee/yuus… で「ストロンチウム」が「ス卜口ンチウム」になっている理由は別のような…。私は自分が納得できる理由を見つけられていません。

2014-06-09 16:20:55
Haruhiko Okumura @h_okumura

なるほどその発端を調べてなかった(今は直ってますね)RT @tss_0101 基本的に同意するのですが、発端の nsr.go.jp/committee/yuus… で「ストロンチウム」が「ス卜口ンチウム」になっている理由は別のような…。私は自分が納得できる理由を見つけられていません。

2014-06-09 17:51:57
Haruhiko Okumura @h_okumura

2014-06-08のアーカイブ web.archive.org/web/2014060809… では「ス卜口ンチウム」になっている。これは意図的な検索逃れで,騒がれて直したのかな

2014-06-09 18:03:43
一ノ瀬修一 @ichinoseshu

@h_okumura 奥村先生 教えてください。f.st-hatena.com/images/fotolif… 今朝取った話題のhtmlです。本日11時頃には文字修正が行われました。奥村先生のご説明は「コピーした時点で文字化けする仕組みが組まれてた。」ということでしょうか。OCRとは違いますよね。

2014-06-09 20:11:02
Haruhiko Okumura @h_okumura

@ichinoseshu ありがとうございます。「原子カ」「東京電カ」はOCRの問題,「ス卜口ンチウム」は故意の置き換えということでした。別の話をいっしょに書いてすみません。本日11時ごろとの情報もありがとうございます

2014-06-09 21:01:32
Haruhiko Okumura @h_okumura

今日つぶやいている問題は二つあります①テキスト抽出禁止PDFで公開されたPDFをGoogleがOCRでテキスト化したために例えば「原子力」が「原子カ」に化けて検索にかからなくなる問題,②「ス卜口ンチウム」のように情報提供者が検索にかからないように似た文字に置き換える問題

2014-06-09 21:27:29
Takayuki KUSANO @tkusano

“原子力規制委員会ホームページリニューアル及びCMS導入に係る構築等業務|物品・役務|調達|調達・予算執行|原子力規制委員会” htn.to/Wt6VJf1

2014-06-09 21:40:55
Takayuki KUSANO @tkusano

nsr.go.jp/committee/yuus… で、なぜ 「ストロンチウム」が「ス卜口ンチウム」になったのかは理由がいくつか考えられる

2014-06-09 21:42:02
Takayuki KUSANO @tkusano

(1)検索避けのために故意に書き換えた (2)入力担当者が「木亥火暴」「タト」「エロデータ」みたいな文字を置き換えた「ス卜口ンチウム」という文字列を使ったおふさげのメッセージのやりとりを身内とかで普段からやってて辞書に学習されてしまっていた

2014-06-09 21:42:43
Takayuki KUSANO @tkusano

(3)PDFファイルをウェブに公開するためにCMSに登録する段階で何らかの理由でOCRの工程が入ってしまった (4)他のサイトからコピペで「ストロンチウム」をひっぱってきたつもりが「ス卜口ンチウム」をひっぱってきてしまった (5)担当者の純粋な悪戯

2014-06-09 21:42:57
Takayuki KUSANO @tkusano

といったところが今思いついた理由5つ。

2014-06-09 21:43:25
Hidemiki Suzuki @hidemikisuzuki

@tkusano (6)元データが印刷物しかなく、スキャナで取り込んでPDF化したときにそこだけ直し忘れた。

2014-06-09 22:13:10
Takayuki KUSANO @tkusano

@hidemikisuzuki 元ページとリンクされてるPDFを見てみましたが、PowerPointあたりで作ったスライドをWindows上でAcrobat使ってPDF化したものっぽいですね。OCRは介在しなさそうです。

2014-06-09 22:21:27
前へ 1 2 ・・ 5 次へ