2014年6月10日

なぜストロンチウムはス卜口ンチウムになったのか

「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには?

インターネット原発震災ストロンチウム社会

tkusano
18400
7
2
15
12

26

前へ 1 2 3 ・・ 5 次へ

リンク sites.google.com Shinsai FaxOCR 災害支援に向けたオープンソースのFaxOCRシステム

Haruhiko Okumura @h_okumura

PDFのテキスト抽出禁止では偽文書対策になりません。偽文書対策なら電子署名です nisc.go.jp/active/general…

2014-06-09 15:41:49

リンク t.co 電子署名付きＰＤＦファイル閲覧時の注意表示への対処方法

Haruhiko Okumura @h_okumura

PDF保護問題：この東電の2011年4月4日の回答からもう3年たっているのに→東京電力が放射線量測定データを「使いづらく」している理由 getnews.jp/archives/109133

2014-06-09 16:03:02

リンクガジェット通信東京電力が放射線量測定データを「使いづらく」している理由 – ガジェット通信 ※図A ●2011年4月13日追記経済産業省情報プロジェクト室及び東京電力内関係者各位のご尽力により、福島原発モニタリングデータのCSVファイルでの公開がはじまりました。小さいようですが、大きな一歩だと思います。最適な方法で...

Takayuki KUSANO @tkusano

これが修正前、かな web.archive.org/web/2014060809…

2014-06-09 16:25:40

Takayuki KUSANO @tkusano

go\.jp で"ス卜口ンチウム"となってる(た)HTMLなページは1つだけかな google.co.jp/search?hl=ja&q…

2014-06-09 16:32:29

リンク t.co "ス卜口ンチウム" site:go.jp -filetype:pdf - Google 検索

Takayuki KUSANO @tkusano

2014-01-29 の時点で気づいてる人はいた bizliteracy.net/2014/01/29/str…

2014-06-09 16:35:09

リンクリテラシーマーケティング研究所「ストロンチウム」と「ス卜口ンチウム」・・・メモ。ネットで拾ったのたが・・・。原子力規制委員会第10回特定原子力施設監視・評価検討会汚染水対策検討ワ&

Takayuki KUSANO @tkusano

IOゲー、みたいな関係者内部のスラングが間違って出てきた、とかだったりして

2014-06-09 16:35:54

Takayuki KUSANO @tkusano

ストロンチウムについてdiff ってみた gist.github.com/tkusano/03d0b4…

2014-06-09 16:40:29

tss (夜行性昼行燈)🌻😨🌻 @tss_0101

@h_okumura 基本的に同意するのですが、発端の nsr.go.jp/committee/yuus… で「ストロンチウム」が「ス卜口ンチウム」になっている理由は別のような…。私は自分が納得できる理由を見つけられていません。

2014-06-09 16:20:55

Haruhiko Okumura @h_okumura

なるほどその発端を調べてなかった（今は直ってますね）RT @tss_0101 基本的に同意するのですが、発端の nsr.go.jp/committee/yuus… で「ストロンチウム」が「ス卜口ンチウム」になっている理由は別のような…。私は自分が納得できる理由を見つけられていません。

2014-06-09 17:51:57

Haruhiko Okumura @h_okumura

2014-06-08のアーカイブ web.archive.org/web/2014060809… では「ス卜口ンチウム」になっている。これは意図的な検索逃れで，騒がれて直したのかな

2014-06-09 18:03:43

一ノ瀬修一 @ichinoseshu

@h_okumura 奥村先生　教えてください。f.st-hatena.com/images/fotolif…　今朝取った話題のhtmlです。本日１１時頃には文字修正が行われました。奥村先生のご説明は「コピーした時点で文字化けする仕組みが組まれてた。」ということでしょうか。OCRとは違いますよね。

2014-06-09 20:11:02

Haruhiko Okumura @h_okumura

@ichinoseshu ありがとうございます。「原子カ」「東京電カ」はOCRの問題，「ス卜口ンチウム」は故意の置き換えということでした。別の話をいっしょに書いてすみません。本日11時ごろとの情報もありがとうございます

2014-06-09 21:01:32

Haruhiko Okumura @h_okumura

今日つぶやいている問題は二つあります：①テキスト抽出禁止PDFで公開されたPDFをGoogleがOCRでテキスト化したために例えば「原子力」が「原子カ」に化けて検索にかからなくなる問題，②「ス卜口ンチウム」のように情報提供者が検索にかからないように似た文字に置き換える問題

2014-06-09 21:27:29

Takayuki KUSANO @tkusano

“原子力規制委員会ホームページリニューアル及びＣＭＳ導入に係る構築等業務｜物品・役務｜調達｜調達・予算執行｜原子力規制委員会” htn.to/Wt6VJf1

2014-06-09 21:40:55

Takayuki KUSANO @tkusano

nsr.go.jp/committee/yuus… で、なぜ「ストロンチウム」が「ス卜口ンチウム」になったのかは理由がいくつか考えられる

2014-06-09 21:42:02

Takayuki KUSANO @tkusano

(1)検索避けのために故意に書き換えた (2)入力担当者が「木亥火暴」「タト」「エロデータ」みたいな文字を置き換えた「ス卜口ンチウム」という文字列を使ったおふさげのメッセージのやりとりを身内とかで普段からやってて辞書に学習されてしまっていた

2014-06-09 21:42:43

Takayuki KUSANO @tkusano

(3)PDFファイルをウェブに公開するためにCMSに登録する段階で何らかの理由でOCRの工程が入ってしまった (4)他のサイトからコピペで「ストロンチウム」をひっぱってきたつもりが「ス卜口ンチウム」をひっぱってきてしまった (5)担当者の純粋な悪戯

2014-06-09 21:42:57

Takayuki KUSANO @tkusano

といったところが今思いついた理由5つ。

2014-06-09 21:43:25

Hidemiki Suzuki @hidemikisuzuki

@tkusano （6）元データが印刷物しかなく、スキャナで取り込んでPDF化したときにそこだけ直し忘れた。

2014-06-09 22:13:10

Takayuki KUSANO @tkusano

@hidemikisuzuki 元ページとリンクされてるPDFを見てみましたが、PowerPointあたりで作ったスライドをWindows上でAcrobat使ってPDF化したものっぽいですね。OCRは介在しなさそうです。

2014-06-09 22:21:27

前へ 1 2 3 ・・ 5 次へ

いま話題のタグ

クリエイター480 AIイラスト259 ワールドトリガー866 初見感想からしか取れない栄養素がある25 アメコミ398 あすけん8 ゲゲゲの鬼太郎197 遭難82 逆カルチャーショック1 ホラー1585 離婚364 名探偵コナン496 Ado39 タヌキ108 お金674