中川先生による差分プライバシーの説明

4
中川裕志 @hiroshnakagawa3

世の中にはプライバシー保護データマイニングというものがあり、今世紀に入って研究が進んでいる。その中でも差分プライバシーというの方法は特に難解と言われる。自分なりに解釈したので、説明を試みてみたい。

2012-05-09 11:34:58
中川裕志 @hiroshnakagawa3

@hiroshnakagawa3 病院のデータベースに病気毎の患者数を記載したデータベースがあったとしよう。データベースに対して病名を入力して患者数をもらう質問ができるとする。今、エイズに患者数を質問すると100という答えを得た。新たな患者が1名やってきて、しばらくして帰った。

2012-05-09 11:38:39
中川裕志 @hiroshnakagawa3

@hiroshnakagawa3 そこで再びエイズに患者数を質問すると101という答えを得た。この結果からさっき来院した患者はエイズだと分かってしまう。これでは患者のプライバシーが守れない。そこで、データベースは真の答えに適当な雑音(この場合は整数)を加算して返すことにする。

2012-05-09 11:40:56
中川裕志 @hiroshnakagawa3

@hiroshnakagawa3 雑音が+2 -4だったとすると、患者来院前の答えは102,患者帰宅後の答えは98となり、先ほどのように患者がエイズかどうかは分からなくなる。これが差分データのプライバシーを守るという意味で、差分プライバシーと呼ばれるものらしい。

2012-05-09 11:43:10
中川裕志 @hiroshnakagawa3

@hiroshnakagawa3 できれば雑音は小さくしたい。なぜなら、雑音が大きすぎると意味のあるデータ分析ができない。さて、エイズの患者は非常に稀だという事前知識があったとしよう。すると雑音が小さい場合には、来院前後で同じ100という答えが出たとしてもエイズである確率は高い。

2012-05-09 11:46:25
中川裕志 @hiroshnakagawa3

@hiroshnakagawa3 このように事前知識があり、それがデータベースのプライバシーを破ろうとする側が知っていると、結構危険です。さらに、エイズ患者は、稀だが連続して来やすいなどというデータ間の相関があり、それも事前知識として知られていると、

2012-05-09 11:49:55
中川裕志 @hiroshnakagawa3

@hiroshnakagawa3 (つづき)2名の来院者があったとき、その前後で計3回の質問の答えが100,100,100であったとすると、2名ともエイズではないらしいし、101,100,102のような増加傾向があると2名ともエイズらしいなどと思われる。

2012-05-09 11:53:54
中川裕志 @hiroshnakagawa3

@hiroshnakagawa3 このように事前知識がある場合の差分プライバシーはなかなか複雑な様相を呈するので、少しばかり検討する価値があるかもしれません。

2012-05-09 11:55:54