なぜストロンチウムはス卜口ンチウムになったのか

「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには?
26
Hidemiki Suzuki @hidemikisuzuki

@tkusano なるほど。そうすると、スライド作成時にスキャナ使ったとかじゃない限り、私の推測は成り立ちそうにないですね。

2014-06-09 22:35:31
一ノ瀬修一 @ichinoseshu

@h_okumura 先生 もうひとつ教えて下さい。原子力規制委員会のサイト内検索で、ス卜(ぼく)口(くち)ンチウムで検索してヒットする3件のうち「資料6、pdf」が引っ掛かる仕掛けは、Google OCRがpdfリンク元の文字列を優先的に採用するため、という事でしょうか?

2014-06-10 00:14:48
Haruhiko Okumura @h_okumura

.@ichinoseshu Googleの仕組みはわからないのですが,このPDFは本文では正しく「ストロンチウム」になっていて保護設定されていないものの,PDFのtitle等のメタ情報が含まれておらず,アンカーテキストを優先したのだろうと推測しました

2014-06-10 08:05:45
Kiyonori Nagasaki @knagasaki

これは多分「議事次第」をOCRしてから手で直したけど人の眼で直したからこうなったのではないかと。陰謀というより不手際の産物ではないかと思う。>公式RT

2014-06-10 09:30:36
Kiyonori Nagasaki @knagasaki

ワードとかのスペルチェッカが入っているソフトで修正したらちょっと違ったかもしれない。>公式RT

2014-06-10 09:31:25
Takayuki KUSANO @tkusano

“原子カ(カタカナのカ)で検索して驚いた - Togetterまとめ” htn.to/kgnB96

2014-06-10 09:56:56
まとめ 原子カ(カタカナのカ)で検索して驚いた しだいに問題点と原因が分かってきました。コメントをする人は書き込む前に、この解説文も含めて最後まで読んでください。まとめでは特に最後の6個が大事です。 パソコンを使ってワードやパワーポイントで作った資料をPFDに変換する時には、編集だけを不可にして、文字コピーを可にしたPDFデータにすればいいのに、日本政府と電力会社が公開しているPDFは意図的に文字コピー不可にしていることが原因です。 文字コピー不可のPDFは、画像データのようになってしまい、Googleが文字を抽出できないのでOCR処理で文字を認識するため、インデックス抽出で文字化けが起きます。特に原子力関係の情報は国民への周知のための重要な情報公開であり、しかも政府と電力会社は一般の会社や個人サイトとは違うのだからパソコンで作成した資料をPDFに変.. 41689 pv 633 167 users 296
Haruhiko Okumura @h_okumura

nsr.go.jp/committee/yuus… はアンカーテキストの「ストロンチウム」を「ス卜口ンチウム」にしてPDFメタ情報もない状態で掲載されましたが本文は保護設定されていなかったので検索にかかりました(順位は低くなったはず)。だから無問題なのか。小細工した意図は?

2014-06-10 10:45:59
Hideaki_npc @hgot07

例の件で日本語OCRの精度の話題がバズっているようですが、日本語は文字認識に向かないなどという意見を見ると萎えますね。十分に開発リソースを投入して、研究室から産業にきちんと技術移転して、応用を育てていかなくては。/ちなみにアラビア語OCRの研究がにわかに盛んになったのはテロ……

2014-06-10 11:16:27
Kiyonori Nagasaki @knagasaki

官主導の開発案件のあれこれの話を想像するに、十分な開発リソースの投入、というのがいかにして可能なのかよくわからない…。

2014-06-10 11:22:08
Kiyonori Nagasaki @knagasaki

OCRするときに辞書使って候補を探す機能が組み込んであるだけでも「スト口ンチウム」なんかはずいぶんマシになるような気はするんだけど、それをみんなが使うようにするにはどうしたらいいのかっていう話もあり…

2014-06-10 11:24:52
Haruhiko Okumura @h_okumura

nsr.go.jp/committee/yuus… のアンカーテキストが紙の議事次第をOCRしたものから作られたという説を拝読。それならありそう(えらく非効率な事務作業だけれど)

2014-06-10 11:26:41
Kiyonori Nagasaki @knagasaki

しかし、日本語にも対応できる高精度なフリーのOCRソフトがあるといいなとはいつも思っている。IPAあたりが大金を投入してくれたりできないものかと。

2014-06-10 11:26:56
Kiyonori Nagasaki @knagasaki

Web担当者は紙の資料を受け取ってスキャンして掲載しているようなのであの界隈の業務ITリテラシーからするとその線が有力かと。 RT @h_okumura nsr.go.jp/committee/yuus… のアンカーテキストが紙の議事次第をOCRしたものから作られたという説を拝読。

2014-06-10 11:30:35
Kiyonori Nagasaki @knagasaki

陰謀を疑うよりも乗り込んでいって電子文書のワークフローをなんとかするように協力した方がよいのではと思う今日この頃。あるいは、何故ワークフローを改善できないのかを明らかにするだけでも価値があると思うけど。

2014-06-10 11:33:43
Haruhiko Okumura @h_okumura

ありがとうございます。実際に乗り込んでいって,どんな非効率なことをしているか調べてみたいところです RT @knagasaki Web担当者は紙の資料を受け取ってスキャンして掲載しているようなのであの界隈の業務ITリテラシーからするとその線が有力かと。

2014-06-10 12:23:59
狩野宏樹 @KAN0U

@knagasaki Googleの方も相当に変な事やってますよ。青空文庫のテキストをGoogle Play BooksでPDF化して、それをまたOCRテキスト化で誤認識しているようです。books.google.co.jp/books?id=mZi6G… をご覧下さい(左の検索窓内のテキストに注目)。

2014-06-10 12:28:38
Haruhiko Okumura @h_okumura

しかし nsr.go.jp/committee/yuus… のファイル群は電子的に送ったのだろうからアンカーテキストだけ紙で送ってOCRする意味がわからない。いずれにせよ「OCRの問題だからしかたない」で終わってほしくない

2014-06-10 12:04:41
リンク ITmedia ニュース 「ストロンチウム」’「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正 原子力規制庁がWebサイトで公開している資料の1つで、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていると指摘され、同庁が修正する騒ぎがあった。
Haruhiko Okumura @h_okumura

誰も調べないなら規制庁に電話しようかと思っていたところだった:「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正 - ITmedia ニュース itmedia.co.jp/news/articles/…

2014-06-10 12:59:40
saebou @Cristoforou

↓ひょっとして「検索避け」という発想すら知らないレベルの人たちのお仕事なのかなぁ

2014-06-10 13:34:40
Kiyonori Nagasaki @knagasaki

他にもワープロソフトで作ったらしき文書 nsr.go.jp/committee/yuus… はスキャンのようなのでパワポ書類だけ電子的に送ったようにも思われます @h_okumura しかし nsr.go.jp/committee/yuus… … のファイル群は電子的に送ったのだろうから

2014-06-10 13:08:12
Haruhiko Okumura @h_okumura

ですね。今確認して気づきました RT @knagasaki 他にもワープロソフトで作ったらしき文書 nsr.go.jp/committee/yuus… はスキャンのようなのでパワポ書類だけ電子的に送ったようにも思われます

2014-06-10 13:09:32
Kiyonori Nagasaki @knagasaki

いずれにせよ、パワポ書類から起こしたPDFではちゃんと「ストロンチウム」となっているので陰謀論的な話はここではあたらないのではないかと思う。不手際や慣行に基づく不作為や怠惰の類を陰謀とみなすと改善できるものもできなくなったりしないかと心配。

2014-06-10 13:11:12
Kiyonori Nagasaki @knagasaki

「パワポのスライドはカラーが多くてスキャンしてもきれいにならないのでPDFを作って送ってください。ワープロの分はこちらでスキャンいたしますので」というような親切な(?)やりとりが想像されたり。

2014-06-10 13:12:47