なぜストロンチウムはス卜口ンチウムになったのか
@tkusano なるほど。そうすると、スライド作成時にスキャナ使ったとかじゃない限り、私の推測は成り立ちそうにないですね。
2014-06-09 22:35:31@h_okumura 先生 もうひとつ教えて下さい。原子力規制委員会のサイト内検索で、ス卜(ぼく)口(くち)ンチウムで検索してヒットする3件のうち「資料6、pdf」が引っ掛かる仕掛けは、Google OCRがpdfリンク元の文字列を優先的に採用するため、という事でしょうか?
2014-06-10 00:14:48.@ichinoseshu Googleの仕組みはわからないのですが,このPDFは本文では正しく「ストロンチウム」になっていて保護設定されていないものの,PDFのtitle等のメタ情報が含まれておらず,アンカーテキストを優先したのだろうと推測しました
2014-06-10 08:05:45これは多分「議事次第」をOCRしてから手で直したけど人の眼で直したからこうなったのではないかと。陰謀というより不手際の産物ではないかと思う。>公式RT
2014-06-10 09:30:36nsr.go.jp/committee/yuus… はアンカーテキストの「ストロンチウム」を「ス卜口ンチウム」にしてPDFメタ情報もない状態で掲載されましたが本文は保護設定されていなかったので検索にかかりました(順位は低くなったはず)。だから無問題なのか。小細工した意図は?
2014-06-10 10:45:59例の件で日本語OCRの精度の話題がバズっているようですが、日本語は文字認識に向かないなどという意見を見ると萎えますね。十分に開発リソースを投入して、研究室から産業にきちんと技術移転して、応用を育てていかなくては。/ちなみにアラビア語OCRの研究がにわかに盛んになったのはテロ……
2014-06-10 11:16:27官主導の開発案件のあれこれの話を想像するに、十分な開発リソースの投入、というのがいかにして可能なのかよくわからない…。
2014-06-10 11:22:08OCRするときに辞書使って候補を探す機能が組み込んであるだけでも「スト口ンチウム」なんかはずいぶんマシになるような気はするんだけど、それをみんなが使うようにするにはどうしたらいいのかっていう話もあり…
2014-06-10 11:24:52nsr.go.jp/committee/yuus… のアンカーテキストが紙の議事次第をOCRしたものから作られたという説を拝読。それならありそう(えらく非効率な事務作業だけれど)
2014-06-10 11:26:41しかし、日本語にも対応できる高精度なフリーのOCRソフトがあるといいなとはいつも思っている。IPAあたりが大金を投入してくれたりできないものかと。
2014-06-10 11:26:56Web担当者は紙の資料を受け取ってスキャンして掲載しているようなのであの界隈の業務ITリテラシーからするとその線が有力かと。 RT @h_okumura nsr.go.jp/committee/yuus… のアンカーテキストが紙の議事次第をOCRしたものから作られたという説を拝読。
2014-06-10 11:30:35陰謀を疑うよりも乗り込んでいって電子文書のワークフローをなんとかするように協力した方がよいのではと思う今日この頃。あるいは、何故ワークフローを改善できないのかを明らかにするだけでも価値があると思うけど。
2014-06-10 11:33:43ありがとうございます。実際に乗り込んでいって,どんな非効率なことをしているか調べてみたいところです RT @knagasaki Web担当者は紙の資料を受け取ってスキャンして掲載しているようなのであの界隈の業務ITリテラシーからするとその線が有力かと。
2014-06-10 12:23:59@knagasaki Googleの方も相当に変な事やってますよ。青空文庫のテキストをGoogle Play BooksでPDF化して、それをまたOCRテキスト化で誤認識しているようです。books.google.co.jp/books?id=mZi6G… をご覧下さい(左の検索窓内のテキストに注目)。
2014-06-10 12:28:38しかし nsr.go.jp/committee/yuus… のファイル群は電子的に送ったのだろうからアンカーテキストだけ紙で送ってOCRする意味がわからない。いずれにせよ「OCRの問題だからしかたない」で終わってほしくない
2014-06-10 12:04:41誰も調べないなら規制庁に電話しようかと思っていたところだった:「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正 - ITmedia ニュース itmedia.co.jp/news/articles/…
2014-06-10 12:59:40他にもワープロソフトで作ったらしき文書 nsr.go.jp/committee/yuus… はスキャンのようなのでパワポ書類だけ電子的に送ったようにも思われます @h_okumura しかし nsr.go.jp/committee/yuus… … のファイル群は電子的に送ったのだろうから
2014-06-10 13:08:12ですね。今確認して気づきました RT @knagasaki 他にもワープロソフトで作ったらしき文書 nsr.go.jp/committee/yuus… はスキャンのようなのでパワポ書類だけ電子的に送ったようにも思われます
2014-06-10 13:09:32いずれにせよ、パワポ書類から起こしたPDFではちゃんと「ストロンチウム」となっているので陰謀論的な話はここではあたらないのではないかと思う。不手際や慣行に基づく不作為や怠惰の類を陰謀とみなすと改善できるものもできなくなったりしないかと心配。
2014-06-10 13:11:12「パワポのスライドはカラーが多くてスキャンしてもきれいにならないのでPDFを作って送ってください。ワープロの分はこちらでスキャンいたしますので」というような親切な(?)やりとりが想像されたり。
2014-06-10 13:12:47