編集部が選ぶ「みんなに見てほしい」イチオシまとめはこちら
143
関連まとめ。

ツイートまとめ なぜストロンチウムはス卜口ンチウムになったのか 「原子力」("力"は漢字)が「原子カ」("カ"はカタカナ)に、ストロンチウム("トロ"はカタカナ)が、ス卜口ンチウム("卜"は漢字の"ボク"、"口"は漢字の"クチ")になってるPDFがたくさん発見された。それはなぜそうなったのか。および改善するには? 11194 pv 97 15 users 12

ツイートまとめ なにが困る?PDFファイルでのネット情報発信 42677 pv 397 196 users 150

ツイートまとめ 「原子カ」(げんしか)で検索して驚いている人に驚・・・いてもいられない ソフトウェアに携わる人は、「情弱」なんて言ってちゃ駄目よ、って話。 ・・・自分で言ってて耳がいたひ・・・ 2624 pv 33 2 users 60

ツイートまとめ 【検索回避・隠蔽騒ぎ番外編】『東京電カ(か)』で重要資料発見!の巻。 実際は普通の『東京電力(でんりょく)』を使った検索ですぐ同じ資料が出てきました。 3712 pv 44 1 user 2
重要語句
兄ぃ @any_k
OCRとは 光学文字認識のこと。画像データ上にある文字と思われる部分を解析し、コンピューター上で扱える文字(テキスト)データに変換すること。 kotobank.jp/word/OCR
↓今回は原因らしきものについて触れているツイートから先に収録します。
k u r i t a 𓃬 𓃮 𓃭 @kuri_kurita
「原子カ(←カタカナのカ)」で引っかかるから「隠蔽目的だ!」とかいうのなら、「火カ(←カタカナのカ)発電」「水カ発電」でも検索してみれば? google.com/search?client=… 同じく[pdf]ばかりひっかかる。
ぷろっぷ @teammaruyu2gou
OCRの誤変換の話は一度でも読んdeココみたいなソフトを使ってみれば納得出来るのに、騒いでいる残念な人は使ったことが無いのでしょうね(。’A`) エプソンのプリンターならソフト同梱だったはず。 自分の情弱を陰謀論と騒ぐのは恥ずかしいと思います。
LambdaSK @LambdaSK
カタカナのカのほうで検索して出てくるのはPDFばかりだから、OCRの読み取りミスでしょうね RT @nakayamamikio: 原子カ(カタカナのカ)で検索して驚いた。情報公開は義務なのに電力会社は原子力(ちから)でなくて意図的に多くの情報でカタカナのカを利用して検索逃れ。東京
Haruka Kataoka @hrk
"原子カ" っていうのもあるのか。いろいろ検索して見て回ると、文字の置換が発生している資料の殆どがPDFで、また検索語になりそうもない箇所でも変な置換が発生していたりする。おそらく殆どがOCRの認識ミスだと思います。検索避けの意図があるものがゼロとは言い切れないけど。
Haruka Kataoka @hrk
"潮汐カ" で検索しても沢山資料が出るし、おそらく多くの人が思っている以上に、世の中では(おそらく元々デジタルデータの)資料を 印刷配布→スキャン→OCR という事が行われており、我々はそのムダと不便と非効率こそ糾弾しなければいけない時にきているのでは。
(Ǝ)ɐsıɥıɥso⅄ ouɐɓnS @koshian
あ、なるほど、テキスト抽出できないPDFだとGoogleがレンダリング結果をOCRするのか / “「"原子力(りょく)"ではなく"原子カ(か)"で検索すると出てくるpdf資料が「検索避けの隠蔽工作か!?」と一部で話題。 - Tog…” htn.to/gJZsDr
尾野(しっぽ) @tail_y
東京電力→東京電カ(カタカナの「か」)問題は、単に自動文字認識ツールの読み間違いの可能性が高いと思う。なので書類系しか出てこない。おそらく東京電力と普通に検索しても書類はあるのだが、他の検索結果が多すぎて見えないだけかと。
尾野(しっぽ) @tail_y
というか、「カタカナのか」で検索避けしてるとして、その検索結果の書類に普通に「東京電力」とか「原子力」と漢字で書かれてる文字列があるんだから、普通に考えて何らかのシステム的理由で混在してしまったと考えるべきでしょ。陰謀じゃない。
Isao Sakuma(文と企画・近々廃業) @Biz_Sakuma
「ストロンチウム」や「原子力」だけでなく「潮汐力」など全く隠蔽する意味のない物でもでも発生しているとすると、隠蔽というよりOCRの読み取りミスがほとんどという可能性が高そうだなぁ。> twitter.com/hibikilla30/st… twitter.com/hrk/status/475…
takahasi kasiko @takasiko
「原子カ」とか「ス卜口ンチウム」って、マヌケOCRのせいだと好意的に解釈してるんだけど、PDFの中身は正常でWeb上の見出しだけとかって、謎と言えば謎ではある。きっとお役所らしい笑える理由があると思うんだけどな。
shuji yamamoto @shuji
Googleで「原子力 PDF」(ちから)での検索結果に出てくるPDFはテキストをコピーできる。一方、カタカナでの結果のPDFはコピー不可に保護されている。 GoogleはPDFのテキストを取得して蓄積する。テキストが保護されていればOCR的に抽出する。その精度の問題。
Sirius☆彡 共謀中一般人 祈ります @sitesirius
PDFを作った人、というよりも、「PDFを読み込んで検索インデックスを作っているgoogle」じゃないでしょうか… PDFを開いてカタカナ「原子カ」を検索しても、引っかかりません。 #政府MS #原発PA #NoNUKE @simanekomama
Sirius☆彡 共謀中一般人 祈ります @sitesirius
とはいえ、「原子カ(カタカナ)」でgoogle検索→ google.co.jp/search?q=%E5%8… の2番目の浜岡のPDFとか、頭に変な字"䛂"が付いているが、PDFを開くと無い。そこには"「"が表示されている。試しに"䛂"でPDF内を検索すると、"「"の場所がヒットする。…
Sirius☆彡 共謀中一般人 祈ります @sitesirius
…ってことは、PDFの内部的なコードに、"「"が、"䛂"に変換されてしまう何かの仕掛けがあるんだろう。googleは、そのクセはまだ織り込んでいないのだろう。 #政府MS #原発PA #NoNUKE
Tad a.k.a ヴィネツボーイ @roodygen
相変わらず「東電は東京電力や原子力の『チカラ』をカタカナの『か』に置き換えて発表することにより検索に引っかからないようにしている。隠蔽だ!」というのが絶賛拡散中なので一言だけ。 「交渉力とか人間力という言葉の『チカラ』をカタカナの『か』に置き換えてググってみてくださいな、一度」
シオン @shion0508
「原子カ」「東京電カ」が検索避けに使われている! みたいな話が沸いてるけど、「応カ」とか「カ持ち」とかで検索すれば、同じ例がいくらでも出てくるんだよな…
河内和泉:冬コミ日曜西あ61b @k_izumi99
さっきの原子力と原子カの話、水力と水カとか、まあなんでもいいんだけど、そういうのでも同じような状態になるんで、原子力がらみの話だから検索避けとかとは違うんじゃねーのって思ってる
加藤AZUKI@「忌」怖い話Echo怪談 @azukiglg
livedoor.blogimg.jp/takenoko_shobo… こっちのほうが分かりやすいと思いますけど、これでもかなりマシなほうなんですよ。 QT @Mickey_Trunk: ス卜口ンチウムを機会に反原発派は高性
加藤AZUKI@「忌」怖い話Echo怪談 @azukiglg
blog.livedoor.jp/takenoko_shobo… 猥褻風俗史では、結局OCRは断念したんですよ。 QT @Mickey_Trunk: @azukiglg ありがとうございます。「猥褻風俗史」でOCRの話をされているのを思い出して、ググって出てきたものを引用させてもらいました。
残りを読む(96)

コメント

k u r i t a 𓃬 𓃮 𓃭 @kuri_kurita 2014-06-09 05:22:59
「ストロンチウム」だけじゃなくて「プルトニウム」も「MOX燃料」も…と、「原子力関係の隠蔽工作だ」という自分の仮定(あるいは思い込み)を肯定する情報ばかり集めてもちっとも「検証」になんかなりません。 言ってみれば「四枚カードの問題」( http://sojin.kyoto-math.jp/wason.html )で「偶数のカードの裏」ばかりチェックしているようなもの。 検証のためには、自分の仮定が間違っていたらどうなるかを考えて調べてみることが必要。
陸奥隆文 @pond_style 2014-06-09 05:30:50
リンクの表記が誤字でもキチンとPDFのリンク先を読めるので、何を騒いでいるのだろうと思ってましたけど自分のTLにOCRの事、間違い易い語句?のTWも流れてきて、なるほど。そういう事かと、府に落ちました。
k u r i t a 𓃬 𓃮 𓃭 @kuri_kurita 2014-06-09 06:44:50
文部科学省は "生きるカ(か)"とすることで、何を隠蔽しようとしているというのか。 http://www.mext.go.jp/b_menu/hakusho/html/hpad199901/hpad199901_2_111.html http://goo.gl/4uHqZq
zen_chip @zen_chip 2014-06-09 07:13:30
件のストロンチウムの資料で使われてるフォントがMS丸ゴシックで、あれいかにもトは卜(ボク)、ロは口(クチ)に誤変換されそうな書体ではありますがね。OCR辞書や精度は完璧じゃないしもし古いの使ってたりしたら尚更。「へ・べ」の平仮名カタカナなんて全く見分けがつかないし。 まあ内情はわからないのでとりあえずその「隠したい資料」をいくつかざっと読んでみたけど、結構ちゃんと書かれたしっかりした資料ばかりで、隠したい理由がそもそも見当たらないしちょっと思いつけないけどなあ。
Muji @ togetter憲兵隊 @643Myshelf 2014-06-09 07:38:52
枯尾花が幽霊に見えた人達が一定数いたと云うことですね。
w_trlvr @w_trvlr 2014-06-09 07:57:48
OCRに気づかなくても(実際自分も気付かなかった)、こんなバカなマネに一体どんな意味があるかと一瞬でも考えられなかったのかね?そう考えれば、何か理由がありそうだと想像できそうなもんだが。すぐにバレるようなウソついたってしょうがないだろうに。ホントに隠すつもりなら、もっと巧妙に細工するんじゃないか。ちゃんと読めばバレる程度の小細工にどんな意味があると言うのか。
加藤AZUKI@「忌」怖い話Echo怪談 @azukiglg 2014-06-09 08:14:45
OCRの機能的限界(日本語では特に判別が難しい類似文字)と、それをチェックする人間の校正能力の限界と、「とにかく早く資料を出せ!」という世論の要求の板挟みになった結果、校正(目で見て人力でチェックする)の部分が犠牲になった、ということでFAだと思う。逆に、いちいち「検索避け」を仕込むほどの余力は現場にはないでしょうよ。
おてつ @guruado 2014-06-09 08:22:16
仕事でよくあるんだけど、こうじゃないかな?といろいろ試す。そこで自分の推測が正解となる結果を得ちゃうと、それを否定するような現象はよっぽど大きいのでないと見えなくなりがち。でかい肯定する理由を、小さく多数で否定する理由が数で勝ってしまうこともある。でも、 んなの見逃しちゃうんだよね。 陰謀、隠蔽がこびりつくとねえ。
kghdt @kghdt 2014-06-09 08:33:10
よりにもよって『戦史研究家』がこんな与太話吹聴しちゃいけないよね。ご自身のお仕事の沽券に関わる問題じゃないですかねコレ。
国井・久一ほぼO型です。 @kyuuiti 2014-06-09 10:16:18
ああ、ようやく謎が解けたw 民主党の「マ二フェス卜」(漢字の「二」ボク「卜」)菅直人氏の「スエーデン」もきっとOCRの仕業に違いない___
フロレスタン@美濃焼を愛する男 @florestan854 2014-06-09 10:38:48
すげえ、原子カ帝国ってインカ帝国みてえw
akisakushun2 @sakushun2 2014-06-09 10:47:33
問題になっている「福島第一原子力発電所におけるストロンチウム分析の状況について」(ストロンチウムはすべてカタカナ)をしらべるとちゃんとでてくるんですが・・。本当に誰かの陰謀だとすると東電ではちゃんとカタカナで書いているので書き間違えた規制委員会ということ?ではとうでんはあくではなかったんだなぁ(棒)
akisakushun2 @sakushun2 2014-06-09 10:55:21
何度でもいうが東京電カ・原子カの「カ」について関西電カ・風カその他諸々でも同じ問題が発生している。 特に沖縄電力でも同じことが起きているのは面白い。原子力を使ってないところにおいてもそういう問題はあるのだ。
兄ぃ @any_k 2014-06-09 12:14:34
「体力測定」や「女子力」についても同様のことが起こっているようです。これが隠蔽工作とすれば、体力測定や女子力を隠したい勢力が…?(マグロ目)
うみんちゅ @DEEPBLUE1219 2014-06-09 12:39:04
陰謀論は滅びぬ。何度でも甦るさ!陰謀論創作のカこそ、人類の夢だからだ!!
月永こん @tsukinagakon 2014-06-09 13:06:50
俺の暴いた陰謀!みたいなことを人生に望んでいるという気持ち、お母さんよくわかったから。でもね、人生はあなたが思うほどライトノベルの様にはいかないものよ。
へっぽこ♂@CB400SF @_po_ko_ 2014-06-09 13:14:15
OCRとか聞くの久しぶり過ぎて鼻水出たw 陰謀脳的には全てのデータは手打ちで作られていると思っているのかしらw
こいたろう(S式自己肯定法実践中) @koitarow 2014-06-09 14:17:25
『なんでもかんでも隠蔽工作に見えるメガネ』をかけている人達にとって、これはどういう意図の隠蔽工作に見えたんでしょ?
塩見遊佐城じゅんいち @jun1_1101 2014-06-09 14:22:43
仮に隠蔽エ作だったとしたら、何のメリットがあるんだろうと考えないのか。それに仮にメリットがあったとしても、バレた時のデメリットが大きすぎる
hanayaneko @hanayaneko1 2014-06-09 14:32:25
「原子力規制委員会サイト」で見れるなら隠蔽もへったくれもないと思うんだけどなあ。
たなこ(🐜×10🥑) @tana_co 2014-06-09 14:34:26
「pdfを紙印刷→回覧(捺印)→スキャンして再びpdf化」なんて作業は仕事上よくやります。無駄な手間がどうとかって言ってる人も居るようですが、必要があってやってる職場もあるので理解してもらいたいなー。
n_waka @n_waka 2014-06-09 14:40:55
「体カ」とか「活カ」で調べても同じようにたくさんのPDFがひっかかるんです。GoogleがPDFを検索のインデックスに載せる時の仕様がタコなだけですよ。
n_waka @n_waka 2014-06-09 14:42:36
原子力規制委員会のサイト内検索で、正しいスト口ンチウムが1330件に対してスト口ンチウム(すとくちんちうむ) 7件、ス卜口ンチウム(すぼくくちんちうむ)3件だもの。工作にしては杜撰で、完全にOCR系の問題でしょう。
波平の1本毛をフライにして食べたい @tri_man 2014-06-09 14:43:55
ストロンチウムであんなに沢山の組み合わせ試してるのに、他の原発と全然関係ない単語を試さないのは、やっぱり確信犯なんだろうな。
陸奥隆文 @pond_style 2014-06-09 15:17:52
リンクの見出しが問題になってるようですが、その先のPDFに飛べれば良いように思うんですけど。原子力規制委員会のサイト内検索で、普通にストロンチウムと入力して検索すると、リンク一覧でますので。それでは、駄目なのでしょうか?
まどちん● @madscient 2014-06-09 15:31:19
---俺用タグ【これもゴルゴムの仕業】---
ぴっぴ @ppix2 2014-06-09 18:02:53
原子力規制委員会は「自発的に、可能な限り多くの原子力規制関連の行政文書をホームページ等で簡易にアクセスできるよう公開しています」ってことなので、作業量が膨大でチェックが疎かになってるんじゃないかな。理想論を振りかざして本末転倒になっちゃうあたり、規制委らしいじゃないですか(´・ω・`)
goya4 @goya4 2014-06-09 18:09:25
漢字と明確にデザインが違う「カ・ロ・ト(カタカナ)」が使われている書体を、公文書では指定すればいいのでは?(明朝体系列の)
neologcutter @neologcut_er 2014-06-09 19:47:44
まあ規制委が #原発 廃止派じゃない人間に置き換わっていくのが嫌だからこういう因縁を付けてるだけじゃないかな。島崎邦彦なんか無能の極みだったけどw
ささた さひこ スイフトスポーツは気持ちいい車 @kuro_kuroyon 2014-06-09 20:18:51
ロと口、力とカ。これらを正答率50%でもいいので分離、抽出できる画像処理アルゴリズムがあれば…俺が知りたいよ!(画像処理技術者、魂の叫び)
ねーの @neno008 2014-06-09 21:33:13
わしらがはらこカムラはらこカムラっていいすぎたからじゃまいか
三月レイ@クリスマスは何処なの? @mitsukirei 2014-06-10 00:13:43
suicaで水力が引っかかるよりはいい。実際の所、どっかのOCRツールで中国人がご認識を校正して表示させているってあったと思うが、日本人自体間違う事もある日本語表記をどれくらい正確に直せるのかと思った事があるわ。
三月レイ@クリスマスは何処なの? @mitsukirei 2014-06-10 00:20:26
パソコンからの入力だって仮名文字をうっかり変換したりするのに。予測変換にもカタカナとひらがな間違えてたりあるし。
桜花ゲートウェイ@多摩丙丁督 @Sakura87_net 2014-06-10 07:41:10
人間だって「スルー力」を「スルーカ」って読むことも珍しくないんだから。元のPDFがマトモにテキストデータつけていなければ機械的に読み取ってるだけのGoogleがアレな事になるのは別に不思議じゃないと思うが。
まどちん● @madscient 2014-06-10 08:28:08
そもそも結果的には何も隠れてないのになんで隠蔽だとか思うのか謎。
粒あん・生活感が無い @keroa18 2014-06-10 12:57:27
大体、unicode策定時には「カ」と「力」は同じコードになりそうだった訳で…
重-オモ- @__oMo__ 2014-06-10 13:43:31
「げんしりょくむら」という言葉を知らなかった時、ずっと「げんしかむら」ってなんだ?と思ってたことを思い出した
マルンボーリ @tandaji 2014-06-10 14:16:01
そういやちょっと前にある種のコピー機で、数字が別の文字に置換されちゃうバグか不具合があったよな。あれと似たような事が起こってるのかな?。
よーいちろー🌒 @youichirou 2014-06-10 15:55:02
「原子力を推進しようとする資料だけは"チカラ"になっていて、原発事故に関する資料は"カ"になっている」とかならともかく、そうでもないなら、そういう意図はないと判断するしかないはずなのになぁ。
あんこだま @ankodama_oishi 2014-06-10 17:49:52
そういえば、知り合いに原子力(はらこつとむ)って人がいたな~と思って調べたら、別人がヒット。そんなに珍しくもないのかw
兄ぃ @any_k 2014-06-10 19:00:06
冒頭に、主に技術論、方法論について議論している関連まとめを追加しました。
緑川だむ @Dam_midorikawa 2014-06-10 21:40:11
暴カニ男の話をしていると聞いてやってきましたが
日々是口実 @pretextmaker 2014-06-10 21:44:07
女子カ(か)とかでも出る、というのもそうだけど、 ・「か」で表記されたものは表のページからはたどり着けないのか(「ちから」で検索して普通にたどり着けるならまったく無意味) ・ファイルの内容に特定の勢力にとって都合が悪いような一貫性があるか 最低限この二点を出始めの頃に調べた人はいなかったんだろうか?
@sbayasi 2014-06-10 21:59:24
時代とともにOCRの変換精度が多少マシになっていっても、怪しい出来事は全て陰謀論に変換してしまうタイプの変換精度は健在。
兄ぃ @any_k 2014-06-11 01:23:01
短編できました。◆【検索回避・隠蔽騒ぎ番外編】『東京電カ(か)』で重要資料発見!の巻。 http://togetter.com/li/678725
珍獣先輩 @you_gou 2014-06-11 06:57:17
多少ワードを打ち変えた程度でざくざく出てくる情報って隠蔽されてるっていうんですね。初めて知りました。…バカじゃないの。
珍獣先輩 @you_gou 2014-06-11 07:03:52
これに文句つけてる人は、「多少税金使っていいからマシなソフト使えよ」と主張しないと整合性取れませんね。まあ、ほとんど皆無なようだけど。「読取革命」でググるくらいもできないのか。
農民 @no_mi_n 2014-06-11 10:28:59
いつも以上に「ゴルゴムの仕業」タグがどハマりしてると思ったw
reesia @reesia_T 2014-06-11 13:39:06
オオ夕力で検索して出てくるオオタカの資料は何を隠蔽しているのか、わたし気になります!
ぉざせぃ @hijirhy 2014-06-11 17:35:29
「ロと口、力とカ。これらを正答率50%でもいいので分離、抽出」って、例えば50個のロと50個の口があった場合にロの25個をロ、25個を口、口の25個を口、25個をロと判断するってって事なので、ランダムに抽出するだけでいいと思った。(正答率30%より50%の方が簡単)
ふみたけ @Fumitake_A 2014-06-11 20:46:38
偏見と決めつけというフィルターにかかると目に見える実態さえきちんと読み解けない、それって件の問題を招いたOCRのそれと同じことだってなぜあの人達は気付かないんだろうね。
ふみたけ @Fumitake_A 2014-06-11 20:49:38
昔は読み取り専用の要旨に数字を記載してそれをOCRでまとめて読ませて電算処理なんて事務処理をしてた時代もあってその場合にOCRの誤読に悩まされた事務方って結構いたんですけどね。
名無し岩手県民(鯨美味い) @iwatekenmin01 2014-06-14 10:32:01
kghdt 山崎氏ははっきり言ってアジテーターに転向したと私は見ています。 http://togetter.com/li/603434
3mのパブリックエネミーちくわ @tikuwa_zero 2014-06-14 10:33:12
先人曰く、「幽霊の正体見たり枯れ尾花」。
ラッシュ刑事(嘘) @prospector_sasa 2014-06-15 19:53:15
「PDFばかりたくさんヒット!」って、読み取り精度の問題だという証拠を掲げながら「隠蔽だ!陰謀だ!」と騒ぐ、相変わらず芸にブレがないところは評価に値する
ログインして広告を非表示にする
ログインして広告を非表示にする