しましまのKDD2011まとめ

しましまのKDD2011の参加・聴講記録 http://www.kdd2011.com/
0
しましま @shima__shima

学習側は,損失がコストになるのだが,相手が作ったテストデータでの経験分布で評価することがミソ.また,生成側は経験損失に加えて,データを作り替えるコストが加わる.

2011-08-24 12:22:25
しましま @shima__shima

その次の論文はベストペーパーの Leakage in Data Mining: Formulation, Detection, and Avoidance まず,背景として KDDCup2008 でデータのIDの付け方が悪くてボロ勝ちされた事件

2011-08-24 12:26:58
しましま @shima__shima

詳しくは @kashi_pong 先生の http://t.co/xHeK2pY を参照.で,この抜け穴を見つけて優勝した人が http://t.co/J1VkCII 共著になってる.抜け目ない…

2011-08-24 12:29:41
しましま @shima__shima

このLeakage というのは,ID に目的関数の情報が入っていたみたいなことがあると,それから作ったモデルは予測にあまり役立たなかったりする.昔から,肺がんデータとかで,生体検査の結果の特徴が効くけど,負担の多いその検査をしないために予測してるんだから使っちゃダメじゃんとかある

2011-08-24 12:32:03
しましま @shima__shima

こういうLeakageを放置してモデルをつくると,もちろん使い物にならない予測器ができるので,この問題を特徴の漏洩と,事例の漏洩に分けてちゃんと定式化しましょうっていう,すごく新しい視点の問題.確かに,ベストペーパーにふさわしいと思う.

2011-08-24 12:34:07
しましま @shima__shima

最後の教師なし学習のセッションは日本から唯一オーラル発表の藤巻さん登場.軸ごとに分布の形状が違う(対数正規とか正規とか)場合に対応する話.全部の組み合わせのモデルを考えてるともちろん死ぬので,コピュラを使うのがミソだと思う.

2011-08-24 12:39:01
しましま @shima__shima

ところで,さっきの Claudia Perlich さんが http://t.co/UL9VpOF に似てる気がするのはメガネのせいか?

2011-08-24 12:40:00
しましま @shima__shima

ポスターは差別配慮型マイニングを始めた人とコンタクトできた.KDDに来た一番の目的は達成できた.以上で,今日の報告終わりますです.

2011-08-24 12:44:35
しましま @shima__shima

私は別のに出てたけどKDD2011の大規模データ処理のチュートリアル資料が出たみたい Scaling Up Machine Learning, the Tutorial, KDD 2011 http://t.co/EnoLlc0

2011-08-24 18:36:05
しましま @shima__shima

.@kashi_pong この会社は organizational sponsor ってのに名を連ねてました.美人さんですが,すごい肩幅の人でした.

2011-08-25 00:50:13
しましま @shima__shima

KDD2001最終日:Industry/Govt セッションをのぞく.センチメント分析とか,属性の予測とかそのへん.どんな特徴が効くとか,細かいテクの差がどれくらい効くかとか,かなり煮詰まった感じ

2011-08-25 05:27:45
しましま @shima__shima

でっかく 2012 って書いてあるのはオバマ大統領の選挙チームの RT @mamoruk: マイニング業界ぱない RT @hikita: 学会の案内じゃなくて、職の募集。マイニング業界はどんだけ流行ってるんだよ! http://t.co/hrwvkWx

2011-08-25 11:04:48
しましま @shima__shima

プライバシのセッション.Differentially Private Data Release for Data Mining 差分プライバシを保つのにでっかいノイズを入れると,後で使いにい.で,データの一般化の粒度を変えた階層を作ってノイズの量を変えて効用を保つと言ってたと思う

2011-08-25 11:11:46
しましま @shima__shima

k-NN as an Implementation of Situation Testing for Discrimination Discovery and Prevention 差別配慮型マイニングってのを考えたチームの新ネタ.他の条件は同じだけど,差別的な属性だけが違うと…

2011-08-25 11:12:48
しましま @shima__shima

Exploiting Vulnerability to Secure User Privacy on Social Networking Site SNSでは友達がぺらぺらプライベートの属性を漏らすことがある.そういう脆弱性のある友人を検出する指標の提案.

2011-08-25 11:15:49
junsakuma @junsakuma

@shima__shima discrimination系のネタは今後発展しそうでしょうか?SIGKDDではこの一本だけですか?

2011-08-25 11:19:25
しましま @shima__shima

最後の Industry Practice Expo ではオバマ大統領の選挙チームのデータ分析の担当.資料に文字画少なかったのでほとんど理解できなかったけど,世論というのも分析していじれるものだというのは分かった.分析スタッフを募集してた.

2011-08-25 11:20:29
しましま @shima__shima

.@junsakuma この1本です.ポスターのときコンタクトしました.差別だけじゃなくて,使っちゃいけない情報を使わずに予測するっていうことで,適用範囲をもっと広げればいろいろ需要は歩きがします.

2011-08-25 11:31:28
Toshi Hikita @hikita

デジタルサイネージの会社とかいっていたような RT @shima__shima .@kashi_pong この会社は organizational sponsor ってのに名を連ねてました.美人さんですが,すごい肩幅の人でした.

2011-08-25 11:33:14
しましま @shima__shima

.@hikita http://t.co/6qqXRn1 を見た感じ,マッチング広告全般ってとこですかね

2011-08-25 11:42:34
junsakuma @junsakuma

@shima__shima そうですね...僕もfairness-awareよりも広い概念で使える考え方かな...とおもって考えてみたりしたのですがあまりいいのが思いつきません discrimination-awareのほうが人目は引きそうですよね 

2011-08-25 12:15:18
しましま @shima__shima

.@junsakuma discrimination っていうと,機械学習では classification なのでっていう問題も.

2011-08-25 12:20:46