昨日発生していたサイトログインできない不具合は修正されております(詳細はこちら)

なぜストロンチウムはス卜口ンチウムになったのか

「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには?
26
前へ 1 ・・ 3 4 次へ
Kiyonori Nagasaki @knagasaki

あるいはワープロ文書のものはどちらかというと主に近くパワポ文書はそれを解説する従のような感じなので(詳しく確認していないが)紙で決裁が必要なものかどうかという線引きがあるのかも?

2014-06-10 13:14:56
Haruhiko Okumura @h_okumura

(RT↓なるほど,紙で決済が必要なものは紙からスキャンしろという話なんだろうか)

2014-06-10 13:20:34
Kiyonori Nagasaki @knagasaki

いずれにしても、産業界に身を置かない者からすると、こういうものこそ「カイゼン」でなんとかできないものなのかと思ってしまうが、ちょっと文脈が違う話なのだろうか…?

2014-06-10 13:22:20
Kiyonori Nagasaki @knagasaki

ワープロ文書を紙に印刷してスキャンして公開するよりはワープロ文書から直接PDFを起こした方が圧倒的に低コスト化できるように思われるので総括原価方式を採って居られる企業の皆様にはぜひそのようにしていただきたいが、実は電子決裁システムの運用コストが意外とかかったりするのだろうか?

2014-06-10 13:27:47
リンク J-CASTニュース 原発関連文書に「検索対策疑惑」持ち上がる 「ロ」を「口」、「力」を「カ」に細工したのか インターネット上で原発関連の情報を検索する際、正しい語句でなく一部を「当て字」にすると、通常の検索では上位に表示されない文書が続々と出てきたと、ネット掲示板やツイッターで報告された。...
Haruhiko Okumura @h_okumura

「ス卜口ンチウム」はこれ1点だけだが,ほかの「原子カ」など多数は,保護設定などでテキストが抽出できないPDFをGoogleがOCRした際の誤りで,やはり元PDFに問題がある

2014-06-10 13:33:11
Flying Zebra @f_zebra

一部で話題になっているOCRの読み取りエラーについて。原子力規制委員会が行っている様々な技術的な審査でも、事業者との面談の際に使われた資料などが現在は原則として全て公開されることになっている。ところが、こうした資料には公開が不適切な情報も含まれる。

2014-06-10 12:40:15
Flying Zebra @f_zebra

具体的にはメーカーの商業機密だったり、セキュリティ上の機微情報などだ。これらは審査の場では「見え消し」の状態で示され、公開される時にはその部分がマスクされたPDFファイルとなる。公開用の資料も、資料を作成する側、つまり事業者が用意する。

2014-06-10 12:42:48
Flying Zebra @f_zebra

WordなどからPDFに変換するとテキスト情報が埋め込まれるが、そのままだと見た目ではマスクされた部分のテキスト情報も残ってしまう。実際に、そうして黒塗りの裏のテキスト情報を残したまま公開されてしまったという事例も発生している。

2014-06-10 12:43:37
Flying Zebra @f_zebra

AcrobatのStandard以上なら別のオブジェクトで隠れた部分のテキストを抽出して削除するような機能も使えるが、機微な情報は確実に削除されていることを一つ一つ確認しなければならない。毎回手間を掛けてもいられないので、テキスト情報を含まない画像にしてしまう場合も多い。

2014-06-10 12:44:59
Flying Zebra @f_zebra

保安院の時代には、審査の資料は非公開が原則だった。審査の役に立ちそうな情報であれば「念のために」と審査側が追加で情報提供を依頼するのもやりやすく、事業者側がそれを拒むことは難しかった。事業者にとっては作業の手間が増えるので有り難くはないが。

2014-06-10 12:45:47
Flying Zebra @f_zebra

現在は、全て公開が原則となってしまったので、提出する資料は必要最小限に留める。公開時にはマスクすることを前提に追加資料を要求することはもちろん可能だが、マスク箇所の抽出やチェックには膨大な手間が掛かるため審査のスピードは自ずと落ちる。

2014-06-10 12:47:10
Flying Zebra @f_zebra

審査する側にとっても受ける側にとっても手間が掛かるばかりで、公開される資料もマスクだらけの見にくいものでしかない。一体何のための公開なのだろうか。商業機密を虎視眈々と狙う海外メーカーや防護情報を狙うテロリスト以外に、誰か得をする人はいるのだろうか。

2014-06-10 12:48:17
Flying Zebra @f_zebra

重箱の隅をつつくようなあら探しをして攻撃のネタにする反対運動には好都合かもしれないが、そのような嫌がらせは彼らが掲げる崇高な目標には何ら寄与しない。嫌がらせそのものを目的とするただのクレーマー集団に自らを貶めるのでなければ、だが。

2014-06-10 12:50:00
Flying Zebra @f_zebra

電子的に作成された文書がわざわざテキスト情報を含まない形で公開され、OCR処理の過程で誤ったテキストが付与されてしまう事情の一つをご紹介した。これ以外にも、様々な事情があるだろう。例えば企業における「紙」の見た目を偏重する文化などだが、それはそれとして。

2014-06-10 12:51:03
KITAYAMA Takeshi @kitayamatakeshi

@h_okumura 機密情報を確実に見えなくする為には、一回紙or画像にして目視で確認した後にOCRが確実、という事もあるようです。 twitter.com/f_zebra/status… twitter.com/f_zebra/status… twitter.com/f_zebra/status…

2014-06-10 13:40:06
Haruhiko Okumura @h_okumura

(画像PDFや保護PDFは,検索やデータ抽出を困難にするための陰謀と騒ぐか,JIS X 8341-3適合を要求するかで,潰してほしい)

2014-06-10 13:49:03
Hidemiki Suzuki @hidemikisuzuki

@h_okumura 画像PDFや保護PDFがよろしくないのはおっしゃる通りとして、陰謀だと騒ぐのはいろんなところに飛び火するのでさすがにいかがなものかと。

2014-06-10 13:54:58
Haruhiko Okumura @h_okumura

確かに^^; RT @hidemikisuzuki @h_okumura 画像PDFや保護PDFがよろしくないのはおっしゃる通りとして、陰謀だと騒ぐのはいろんなところに飛び火するのでさすがにいかがなものかと。

2014-06-10 13:56:14
Haruhiko Okumura @h_okumura

(画像PDFは情報リテラシーの問題かもしれないが,保護PDFはやはり情報をあまり広めたくない「陰謀」)

2014-06-10 13:59:02
Hidemiki Suzuki @hidemikisuzuki

基本的には情報リテラシーの問題で、それに費用の問題とかの気がするんだがなあ、保護PDFの件。電子署名導入費用とか。

2014-06-10 14:13:07
兄ぃ @any_k

@sasakitoshinao 佐々木さん、こんにちは。「原子カ(か)の文字列のOCR処理について、陰謀論が吹き荒れているので、まとめてみました。後々都市伝説化しそうな感じです。ご一読いただければ幸いです。 togetter.com/li/677948

2014-06-10 14:58:26
前へ 1 ・・ 3 4 次へ