しましまのKDD2013まとめ
- shima__shima
- 2711
- 0
- 2
- 0
キーノート3:Optimization in Learning and Data Analysis, http://t.co/4fYEDtBCxt の人.基本的な話だけど,並列まわりは全く知らなかった.
2013-08-13 23:51:33データ同化はベイズのことしか頭になかったけど,系の方程式を制約とし,当てはめ誤差を最小化する問題でもあることに,今まで思い至ってなかった.
2013-08-13 23:51:41確率的勾配降下で,事例をランダムサンプリングして,並列に勾配を計算する HOGWILD! や非同期確率勾配降下とかは知らなかったが,収束とかいろいろ求められてた.
2013-08-13 23:53:08Experience from Hosting a Corporate Prediction Market: Benefits beyond the Forecasts フォードで予測市場を運用している人のお話.予測をみんなの投票で決めるような一種のクラウドソーシング.
2013-08-14 03:46:26従業員相手だからか,社への問題の重要性の方が報酬より動機付けになっているらしい.検証できるまでの時間が長かったりとか,対立候補をうまく設定できるかとかは適用可能性として重要とか.
2013-08-14 03:46:35予測市場リンク(1) http://t.co/CAyJkwE0Dt http://t.co/802NOU15MU http://t.co/6h7nqgGrQz http://t.co/Rc3Ea24oQq http://t.co/YNz0XXNMBt
2013-08-14 03:47:21予測市場リンク(2) http://t.co/jAl0tfHRbc http://t.co/E4xecu66ZR http://t.co/roWxEtBm3s http://t.co/KsEIfJV2sK
2013-08-14 03:47:34私としては,ケインズの美人コンテストのようにいかに当てるかではなく,いかに多数に付くかみたいなずれ方をしないのかがよくわからない.一人であてようとして,競馬のように違うと思う結果に掛けてに大穴ねらいとかしたりしないのかな?
2013-08-14 03:47:43ビジネスミーティング:参加者数推移 2009:753→2010:870→2011:1031→2012:約950→2013:約1200 と増えてる.日本からは企業から見に来られている方は増えてるけど,大学の先生は減っちゃってる… というか,学生さんの参加がないのはとてもさびしい…
2013-08-14 03:47:59SIGIR/SIGMOD に対抗意識があるのか,去年と今年でSIGメンバー数が SIGIR:1031→815,SIGMOD:1936→1837,SIGKDD:1234→1152 みたいな数字を出してた.
2013-08-14 03:48:09Discriminant Malware Distance Learning on Structural Information for Automated Malware Classification マルウェアの変種を,既存のマルウェアとの類似性で検出
2013-08-14 09:16:28プログラムのコードを,関数関係を辺として,ノードをその中の実行コードとし,ノードとグラフ構造の類似性で,コードの類似性を定義する.距離の重みは学習で求める.プログラムを特徴量に変換するというのは見たことがなかった.
2013-08-14 09:16:36シンガポールの道路課金システムでGPSを導入する話があったのだが,自身の情報を用途に応じて出したりできるらしい.だけど,課金に使うのにそんなんでいいのだろうか?よくわからなかった.
2013-08-14 09:17:58Predicting the Present with Search Engine Data, Hal Varianさん.Google correlate というものについて掘り下げて話してくれた http://t.co/otAZCXqsFm
2013-08-14 23:43:19経済状況とかを検索語から予測する問題.予測に使う変数が非常に多数あるので,意味的におかしいけど変に相関の高いものとかいろいろある.カルマンフィルタでベイズ的な扱いでいろいろがんばったお話.
2013-08-14 23:43:36Psychological Advertising: Exploring User Psychology for Click Prediction in Sponsored Search 心理的な因子をクリック率予測に組み込む.
2013-08-15 01:46:49何かしらの意味づけを特にしなくても,予測モデルにうまく潜在因子を組み込んでおけば自動的い同等のことはできるような気もするけどどうなんだろう?
2013-08-15 01:46:56個人的には,理由付けをした因子を組み込むというのは,何らかの無理な解釈でも正当化してしまう危険性もある気がする.出てきた理由より,納得した理由を採用してしまう危険性を増大させる気もするのだが.
2013-08-15 01:47:05ベストペーパーセッション:Simple and Deterministic Matrix Sketching 巨大な行列をどうやって保持するか.ベストだけあって,まず,いろいろな方法をよくサーベイしていてさすが.
2013-08-15 04:00:14私の理解では,要素をその頻度で行列を表す.低頻度のところは忘れても元の行列は近似できる.ノルムとかは共分散とかはこれらの情報だけで計算できるというのがポイントのよう.
2013-08-15 04:00:22ベストスチューデント A Space Efficient Streaming Algorithm for Triangle Counting Using the Birthday Paradox グラフ中の三角形の数え上げ問題
2013-08-15 04:17:04両端のノードとその間の辺が流れてくるストリームとグラフをみなす.そして,限られたメモリで数え上げる方法の提案.1辺と2辺分を保持するバッファを使う.
2013-08-15 04:17:14ついて行けなかったのだが,ある辺が他の辺と付く割合は小さいが,ある辺集合の中で付いている辺のペアがある割合は高いことをうまく使うとバッファの効率を上げられるらしい.
2013-08-15 04:17:39