「マイナンバーが素数だった!」その一言が危険かも?
- elgnairtonpei
- 152375
- 21
- 162
- 530
マイナンバーが素数という情報の価値
同様に確からしくないことは認めた上で不正確なことを言うと、マイナンバーが素数という情報と誕生日の月は言わないで何日かだけの情報が同じくらいの情報価値かな
2015-10-06 08:46:25二分探索で情報の講義思い出して、この前誕生日の日付がどうたらの続き。 情報の価値を示す指標のひとつとして「自己情報量」というものがあって面白いと思ったから自分の理解の確認。
2015-10-09 12:00:59たとえばサイコロをひとつ振って、出た目を当てるゲームをすると回答者は1~6の中から1/6の確率で当てられる。
2015-10-09 12:02:04あ、サイコロは回答者に見えないところで振る。 でも振った後、回答する前に「出た目は偶数だよ」と言われたら選択肢が2,4,6の三種類になるから1/3の確率で当てられる。 もっと極端に「出た目は5だよ」と言われたら選択肢が5だけになって確率1で当てられる。
2015-10-09 12:04:11後者の方が情報としての価値が高いと言えそうで、それを定式化するのが自己情報量の考え方だった。 サイコロを振って偶数が出る確率は1/2, 5が出る確率は1/6. 要するに確率が低い事象についての発言のほうが情報としての価値が高いと言える。
2015-10-09 12:06:17「出た目は偶数だ」という発言と「出た目は5だ」という発言では後者の発言の方が情報価値が高いという意味。
ちょっと曖昧だったから補足。
で、この前考えたようにマイナンバーが素数である確率は3.8%だったから、同じくらいの確率の事象はないかと考えたら誕生日の日付を思いついた。 誕生日の月を除いて日付だけ考えると、月によって31日があったり28日までしかなかったりするけど、だいたい1/30で3.3%くらいかなと。
2015-10-09 12:09:53ってことは確率がだいたい同じだから「マイナンバーが素数」という発言と「誕生日が〇日」という発言の情報としての価値がある意味で同じくらいになるのかなーと思いました。 仮定がおかしいせいで、結論が間違ってる可能性も大いにある。
2015-10-09 12:12:00実際には確率pの事象に対して自己情報量を -log(p) で定める.
対数の底によって単位が変わる(2のときは[bit], 10のときは[dit], eのときは[nat]).
すると,
①確率の低い事象の価値は大きい
②確率1の事象の価値は0
③AかつBという事象の価値は事象Aの価値と事象Bの価値の和で表せる
という性質をもつので, 情報の価値を示すために都合の良い指標になる.
「俺1日生まれだぜー!」っていうのと「マイナンバーが素数」っていうのが同じ価値だとすると、危険なのか危険じゃないのか分かりづらいな・・・。どうなんだ。
2015-10-09 12:28:20誕生日の月と日の両方を言う場合、うるう年を考慮しないと1/365で0.27%とかになるんだよな。 それと比べると3.8%って比較的問題ないように感じる・・・。けど、やっぱりマイナンバーが素数でも公表するのは止めよう!
2015-10-09 12:32:07アバウトに見ればさっきの 「マイナンバーを4ケタ×3つに分けたとき3つとも素数」 という発言(確率0.19%)と 「誕生日が〇月□日」 という発言(確率0.27%)を比べると
「3つとも素数」のほうがちょっとだけ価値が高いけど、まぁまぁ同じくらいだと思えそう。