「マイナンバーが素数だった!」その一言が危険かも?

「マイナンバーが素数だったら嬉しいな!素数だったら絶対ツイッターで呟いて自慢しよう!」と思ってた阿呆なぼくがその確率の低さを理解したまとめ。 素数になる確率は? その後は余談。12ケタって冗長に感じる!素数だという情報の価値は?
98

マイナンバーが素数という情報の価値

Kojima @t33f

12桁の数の中で素数は3.7%ぐらいだからマイナンバーが素数であった場合にそのことを公表するとけっこう情報量ある

2015-10-05 08:12:42
Kyaetanθ/きゃえたん。 @elgnairtonpei

同様に確からしくないことは認めた上で不正確なことを言うと、マイナンバーが素数という情報と誕生日の月は言わないで何日かだけの情報が同じくらいの情報価値かな

2015-10-06 08:46:25
Kyaetanθ/きゃえたん。 @elgnairtonpei

二分探索で情報の講義思い出して、この前誕生日の日付がどうたらの続き。 情報の価値を示す指標のひとつとして「自己情報量」というものがあって面白いと思ったから自分の理解の確認。

2015-10-09 12:00:59
Kyaetanθ/きゃえたん。 @elgnairtonpei

たとえばサイコロをひとつ振って、出た目を当てるゲームをすると回答者は1~6の中から1/6の確率で当てられる。

2015-10-09 12:02:04
Kyaetanθ/きゃえたん。 @elgnairtonpei

あ、サイコロは回答者に見えないところで振る。 でも振った後、回答する前に「出た目は偶数だよ」と言われたら選択肢が2,4,6の三種類になるから1/3の確率で当てられる。 もっと極端に「出た目は5だよ」と言われたら選択肢が5だけになって確率1で当てられる。

2015-10-09 12:04:11
Kyaetanθ/きゃえたん。 @elgnairtonpei

後者の方が情報としての価値が高いと言えそうで、それを定式化するのが自己情報量の考え方だった。 サイコロを振って偶数が出る確率は1/2, 5が出る確率は1/6. 要するに確率が低い事象についての発言のほうが情報としての価値が高いと言える。

2015-10-09 12:06:17

「出た目は偶数だ」という発言と「出た目は5だ」という発言では後者の発言の方が情報価値が高いという意味。
ちょっと曖昧だったから補足。

Kyaetanθ/きゃえたん。 @elgnairtonpei

で、この前考えたようにマイナンバーが素数である確率は3.8%だったから、同じくらいの確率の事象はないかと考えたら誕生日の日付を思いついた。 誕生日の月を除いて日付だけ考えると、月によって31日があったり28日までしかなかったりするけど、だいたい1/30で3.3%くらいかなと。

2015-10-09 12:09:53
Kyaetanθ/きゃえたん。 @elgnairtonpei

ってことは確率がだいたい同じだから「マイナンバーが素数」という発言と「誕生日が〇日」という発言の情報としての価値がある意味で同じくらいになるのかなーと思いました。 仮定がおかしいせいで、結論が間違ってる可能性も大いにある。

2015-10-09 12:12:00

実際には確率pの事象に対して自己情報量を -log(p) で定める.
対数の底によって単位が変わる(2のときは[bit], 10のときは[dit], eのときは[nat]).
すると,
①確率の低い事象の価値は大きい
②確率1の事象の価値は0
③AかつBという事象の価値は事象Aの価値と事象Bの価値の和で表せる
という性質をもつので, 情報の価値を示すために都合の良い指標になる.

Kyaetanθ/きゃえたん。 @elgnairtonpei

「俺1日生まれだぜー!」っていうのと「マイナンバーが素数」っていうのが同じ価値だとすると、危険なのか危険じゃないのか分かりづらいな・・・。どうなんだ。

2015-10-09 12:28:20
Kyaetanθ/きゃえたん。 @elgnairtonpei

誕生日の月と日の両方を言う場合、うるう年を考慮しないと1/365で0.27%とかになるんだよな。 それと比べると3.8%って比較的問題ないように感じる・・・。けど、やっぱりマイナンバーが素数でも公表するのは止めよう!

2015-10-09 12:32:07

アバウトに見ればさっきの 「マイナンバーを4ケタ×3つに分けたとき3つとも素数」 という発言(確率0.19%)と 「誕生日が〇月□日」 という発言(確率0.27%)を比べると
「3つとも素数」のほうがちょっとだけ価値が高いけど、まぁまぁ同じくらいだと思えそう。