第7回マイニング探検会 #mitan (2010/10/22)

1
myrmecoleon @myrmecoleon

清田先生から前回言ってたプライバシー保護データマイニングのおはなし。 #mitan

2010-10-22 19:04:35
myrmecoleon @myrmecoleon

データマイニングの現況。データ蓄積のコストが劇的に低下,マイニングのためのコンピュータ資源も容易に入手可能(PCの性能向上,クラウド),ツールも整備されてきた。 #mitan

2010-10-22 19:07:25
myrmecoleon @myrmecoleon

一方で課題。データを使いやすい形で蓄積するのは困難。HDDの肥やしになってしまう。また簡単に有用な結果はでないので手数が必要。そしてプライバシー保護と,それによるデータの有用性のトレードオフが現在問題になっている。 #mitan

2010-10-22 19:10:47
Kosuke Tanabe @nabeta

いまいったん自宅に戻りました。これから向かいます #mitan

2010-10-22 19:11:18
myrmecoleon @myrmecoleon

プライバシー保護。個人情報保護法,業界ごとの倫理規定。プライバシー≠個人情報 #mitan

2010-10-22 19:14:52
ono.wataru @wonox

2回休んだので久しぶりの参加 #mitan

2010-10-22 19:15:58
Yamasak!R!uta(未完成人) @incomplete_P

確かに、一本化されてないね。 RT @myrmecoleon プライバシー保護。個人情報保護法,業界ごとの倫理規定。プライバシー≠個人情報 #mitan

2010-10-22 19:16:42
myrmecoleon @myrmecoleon

こうした現状への疑問。プライバシー保護への定性的な議論は多くなされているが,定量的な議論が少ない。トレードオフの関係である以上,両者の比較のために定量化は不可欠。リスクマネジメントですね。個人情報を公開しないはプライバシー保護の十分条件でない。 #mitan

2010-10-22 19:17:11
myrmecoleon @myrmecoleon

プライバシー保護に関する例。「link attack」。まさちゅーせっつ州知事の医療記録が公開情報から特定可能だった。ZIP #mitan

2010-10-22 19:19:01
myrmecoleon @myrmecoleon

公開されてる医療データ,選挙の投票者名簿にはそれぞれ ZIPコード(郵便番号),誕生日,性別が記載されている。これをマッチングすると医療データの中の知事のデータを特定することができてしまう。 #mitan

2010-10-22 19:21:10
110kA/いとか @lib110ka

公開情報の1つずつのグループを見るだけでは特定はできないが、複数のグループをつきあわせると個人が特定できることがある #mitan

2010-10-22 19:22:02
@bammy0715

Ust参加者の方、音声はいかがでしょうか?今後のために教えてください。 #mitan (Broadcasting live at http://ustre.am/gs75)

2010-10-22 19:23:26
myrmecoleon @myrmecoleon

複数の組織がそれぞれプライバシーについてのクリティカルなデータ(名前,住所など)をもっている。それを必要最小限の範囲(microdata)にサニタイズする仕組みもあるが,それでも「link attack」でデータを組み合わせるによって特定できてしまう場合がある。 #mitan

2010-10-22 19:25:42
myrmecoleon @myrmecoleon

郵便番号のようなありふれたデータから個人を特定できてしまう状況で,その個人のセンシティブなデータ(病歴等)と紐付されてしまうことを防がないといけない。 #mitan

2010-10-22 19:26:49
myrmecoleon @myrmecoleon

k-anonymity(k-匿名性)。ある個人が同一の属性をもつk-1人の中に紛れこませられる,という基準。それによりlink attackでも1/kでしか特定できなくする。このkの人数から匿名性を評価する匿名化手法。 #mitan

2010-10-22 19:28:58
myrmecoleon @myrmecoleon

匿名化手法:一般化。階層的な性質をもつデータは上位の抽象的なデータ(例. 生年>生年月>生年月日)だけを公開する。/抑圧。特異性のあるデータ項目は削除する。 #mitan

2010-10-22 19:31:19
myrmecoleon @myrmecoleon

k-匿名性の問題点。上手く個人を隠したつもりでも,任意の病気がどの人種に起こりやすいか,などの背景知識から,個人が特定できる場合もある。 #mitan

2010-10-22 19:32:28
myrmecoleon @myrmecoleon

そこで l-多様性 という発想がある。あるグループないで少なくともl種類のセンシティブなデータがある状態,らしい。そろそろ理解が追い付かなくなってきた; #mitan

2010-10-22 19:33:36
myrmecoleon @myrmecoleon

t-closeness 。ある属性の値の量に偏りがある(aとbが必ずあるけど99%と1%だとか)になる場合をなくす などいろいろな手法がある。 #mitan

2010-10-22 19:34:57
myrmecoleon @myrmecoleon

まとめ。プライバシー保護は「情報を公開しない」だけでは実現できない。公益のために公開が必須の情報もあるが,それを組み合わせることでプライバシーが侵害されることもある。一方で,法の精神に従うなら柔軟に考えてよい部分も。知る自由 #mitan

2010-10-22 19:36:20
myrmecoleon @myrmecoleon

すごい内容が濃すぎて消化が追い付かない感じ; #mitan

2010-10-22 19:36:57
myrmecoleon @myrmecoleon

質疑応答。日本国内ではほとんど事例はないらしい。まだ契約で提供した個人情報を漏洩しない,などしか行われていない。 #mitan

2010-10-22 19:39:25
myrmecoleon @myrmecoleon

どういうふうにすれば政府を説得して情報を公開させるか,みたいな話。有用性のあるデータを適度に伏せた状態で公開すること自体が(まったく公開しないことよりも)プライバシーの保護になるのではないか。情報を盗むインセンティブが無くなる。 #mitan

2010-10-22 19:43:19
1 ・・ 4 次へ