週末の NIPS 読み会に向け、読み会で読まない論文からいくつか。[Maurits+]Why are some word orders ...(0369). 言語がとる SVO の順序パターンの多寡を統計的に説明しようとするお話。
2010-12-21 18:44:27[Maurits+ NIPS2010]続き。402言語について統計を取ると SOV(44.78%),SVO(41.79%),VSO(9.20%),VOS(2.99%),OVS(1.24%),OSV(0%) となるらしい(Tomlin 1986)。一位のSOVは我らが日本語を含む。
2010-12-21 18:46:22[Maurits+ NIPS2010]続き。SOV,SVO>VSO>VOS>OVS>OSV となる理由の考察はいくつかおこなわれているが、統一的な原理はまだない。uniform information density(UID) を提案してそれによる説明を試みている。
2010-12-21 18:48:58[Maurits+ NIPS2010]続き。が、UIDを使う範囲では、出てきた数字をどういじっても SOV が少ないはず、という結果にしかならない、困ったな、で終わっていてガックリ。
2010-12-21 18:51:05[Hu+ NIPS2010] Latent Variable Models for Predicting File Dependencies in Large-Scale Software Development (0977) バージョン管理システムのログから依存関係を抽出。
2010-12-21 18:55:00[Hu+ NIPS2010]続き。通常、リソース間の依存関係は include してるかどうかなど中身を見て行う。それを「同時にコミットしているか」などの特徴だけから依存関係を推定するという話。うまくいけば、ドキュメント/設定ファイル/ソースなどの依存関係なども抽出できる、かも。
2010-12-21 18:59:00[Hu+ NIPS2010]続き。手法は Bayesian Bernoulli mixture や Logistic PCA など。実験は Firefox, Subversive, Gimp のバージョン管理システムの履歴情報から推定して 4~6割の精度。うーん……もう一声。
2010-12-21 19:04:27[Bonilla+ NIPS2010] Gaussian Process Preference Elicitation (0582) ガウス過程によるリコメンド。ユーザTはアイテムXよりYを好む、などの情報からユーザの好むアイテムを予測。えーと、このパターンはなんて言うんだっけ?
2010-12-21 19:07:35[Bonilla+ NIPS2010] latent utility function f(t,x) はアイテムとユーザから隠れた評価値を与えるものとし、f の差を Normal cdf に入れたものが「ユーザTがXよりYが好きな確率」となる。ちょい乱暴だけど。
2010-12-21 19:23:13[Bonilla+ NIPS2010]続き。ポイントは f に GP の事前分布を設定することと、ユーザからのレスポンス(おすすめが正しいかどうか)によってパラメータを改良していくフレームワーク(こういうのを Preference Elicitation という?)。
2010-12-21 19:47:41[Bonilla+ NIPS2010]続き。しましま先生の寿司データ(5000ユーザ、10種の寿司)で実験。10-fold CV だが、訓練データをサンプリングしてとても小さくしている。その理由は一応書いてある。が、「GP だから大きくできない」んじゃあないかと邪推。
2010-12-21 19:57:48[Bonilla+ NIPS2010]小さい訓練データが baselines にフェアかどうかも気になる。RVOI(restricted value of info.) は参照論文読めばきっとわかるけど、"the best and largest heuristic" って何?
2010-12-21 20:02:31とりあえず今日はこのくらい。例によって「素人なので突っ込み大歓迎」。ちなみに NIPS読み会で読むつもりなのは [Ding+] t-Logistic Regression (0177) です。
2010-12-21 20:08:25