しましまのKDD2013まとめ

しましまのKDD2013の参加・聴講記録 http://www.kdd.org/kdd2013/
1
しましま @shima__shima

キーノート3:Optimization in Learning and Data Analysis, http://t.co/4fYEDtBCxt の人.基本的な話だけど,並列まわりは全く知らなかった.

2013-08-13 23:51:33
しましま @shima__shima

データ同化はベイズのことしか頭になかったけど,系の方程式を制約とし,当てはめ誤差を最小化する問題でもあることに,今まで思い至ってなかった.

2013-08-13 23:51:41
しましま @shima__shima

確率的勾配降下で,事例をランダムサンプリングして,並列に勾配を計算する HOGWILD! や非同期確率勾配降下とかは知らなかったが,収束とかいろいろ求められてた.

2013-08-13 23:53:08
しましま @shima__shima

Experience from Hosting a Corporate Prediction Market: Benefits beyond the Forecasts フォードで予測市場を運用している人のお話.予測をみんなの投票で決めるような一種のクラウドソーシング.

2013-08-14 03:46:26
しましま @shima__shima

従業員相手だからか,社への問題の重要性の方が報酬より動機付けになっているらしい.検証できるまでの時間が長かったりとか,対立候補をうまく設定できるかとかは適用可能性として重要とか.

2013-08-14 03:46:35
しましま @shima__shima

私としては,ケインズの美人コンテストのようにいかに当てるかではなく,いかに多数に付くかみたいなずれ方をしないのかがよくわからない.一人であてようとして,競馬のように違うと思う結果に掛けてに大穴ねらいとかしたりしないのかな?

2013-08-14 03:47:43
しましま @shima__shima

ビジネスミーティング:参加者数推移 2009:753→2010:870→2011:1031→2012:約950→2013:約1200 と増えてる.日本からは企業から見に来られている方は増えてるけど,大学の先生は減っちゃってる… というか,学生さんの参加がないのはとてもさびしい…

2013-08-14 03:47:59
しましま @shima__shima

SIGIR/SIGMOD に対抗意識があるのか,去年と今年でSIGメンバー数が SIGIR:1031→815,SIGMOD:1936→1837,SIGKDD:1234→1152 みたいな数字を出してた.

2013-08-14 03:48:09
しましま @shima__shima

KDD2015はシドニーとのアナウンス (真冬なのか…?)

2013-08-14 03:48:26
しましま @shima__shima

Discriminant Malware Distance Learning on Structural Information for Automated Malware Classification マルウェアの変種を,既存のマルウェアとの類似性で検出

2013-08-14 09:16:28
しましま @shima__shima

プログラムのコードを,関数関係を辺として,ノードをその中の実行コードとし,ノードとグラフ構造の類似性で,コードの類似性を定義する.距離の重みは学習で求める.プログラムを特徴量に変換するというのは見たことがなかった.

2013-08-14 09:16:36
しましま @shima__shima

シンガポールの道路課金システムでGPSを導入する話があったのだが,自身の情報を用途に応じて出したりできるらしい.だけど,課金に使うのにそんなんでいいのだろうか?よくわからなかった.

2013-08-14 09:17:58
しましま @shima__shima

KDD2013 の4日目(最終日):本会議3日目

2013-08-14 23:42:42
しましま @shima__shima

Predicting the Present with Search Engine Data, Hal Varianさん.Google correlate というものについて掘り下げて話してくれた http://t.co/otAZCXqsFm

2013-08-14 23:43:19
しましま @shima__shima

経済状況とかを検索語から予測する問題.予測に使う変数が非常に多数あるので,意味的におかしいけど変に相関の高いものとかいろいろある.カルマンフィルタでベイズ的な扱いでいろいろがんばったお話.

2013-08-14 23:43:36
しましま @shima__shima

Psychological Advertising: Exploring User Psychology for Click Prediction in Sponsored Search 心理的な因子をクリック率予測に組み込む.

2013-08-15 01:46:49
しましま @shima__shima

何かしらの意味づけを特にしなくても,予測モデルにうまく潜在因子を組み込んでおけば自動的い同等のことはできるような気もするけどどうなんだろう?

2013-08-15 01:46:56
しましま @shima__shima

個人的には,理由付けをした因子を組み込むというのは,何らかの無理な解釈でも正当化してしまう危険性もある気がする.出てきた理由より,納得した理由を採用してしまう危険性を増大させる気もするのだが.

2013-08-15 01:47:05
しましま @shima__shima

ベストペーパーセッション:Simple and Deterministic Matrix Sketching 巨大な行列をどうやって保持するか.ベストだけあって,まず,いろいろな方法をよくサーベイしていてさすが.

2013-08-15 04:00:14
しましま @shima__shima

私の理解では,要素をその頻度で行列を表す.低頻度のところは忘れても元の行列は近似できる.ノルムとかは共分散とかはこれらの情報だけで計算できるというのがポイントのよう.

2013-08-15 04:00:22
しましま @shima__shima

ベストスチューデント A Space Efficient Streaming Algorithm for Triangle Counting Using the Birthday Paradox グラフ中の三角形の数え上げ問題

2013-08-15 04:17:04
しましま @shima__shima

両端のノードとその間の辺が流れてくるストリームとグラフをみなす.そして,限られたメモリで数え上げる方法の提案.1辺と2辺分を保持するバッファを使う.

2013-08-15 04:17:14
しましま @shima__shima

ついて行けなかったのだが,ある辺が他の辺と付く割合は小さいが,ある辺集合の中で付いている辺のペアがある割合は高いことをうまく使うとバッファの効率を上げられるらしい.

2013-08-15 04:17:39