@shima__shima さんとの分布モデルに関する議論

@toritorix@shima__shimaさんに分布モデルに関するアドバイスをもらっている様子.
2
しましま @shima__shima

.@toritorix 時系列のときは確定的に変化する時刻 t に伴う変化を追いたいので t は確率変数ではなく,ただの変数と考えることが多いかと思います.なので,時間方向を確率変数にとったモデリングをしたときは,だんだんと増加したとかいう確定的な時間を前提とした解釈は >続

2012-08-23 16:07:40
しましま @shima__shima

.@toritorix は合ってなくて,この時間帯にはこういうつぶやきが多かったみたいな解釈をすることになるかと思います.

2012-08-23 16:09:58
tori tori @toritorix

@shima__shima ここでいう「こういうつぶやき」とはどういう事でしょうか?Σw_kP_k のP_kにあたるものでしょうか?

2012-08-23 16:24:43
しましま @shima__shima

.@toritorix 密度型のモデリングだとあるつぶやき発生する時刻が t 〜 Σk w_k N(μk, σk) にしたがっています.時刻 μk になにかある種のつぶやきを発生する要因があってその前後の時間にそれが広がっています.

2012-08-23 16:40:17
しましま @shima__shima

.@toritorix 回帰型の x(t) 〜 Σk w_k f(μi, σi) + ガウスノイズ のモデリングだと,時刻 t の増加に伴って Σk w_k f(μi, σi) という本来あるべき変化にそって変化していることをモデリングしているので,時間方向の変化を考えているかと

2012-08-23 16:44:12
tori tori @toritorix

@shima__shima あ~,なるほど,そういうことになるわけですね.それは変ですね.

2012-08-23 16:51:44
しましま @shima__shima

.@toritorix 回帰でもガウスのカーネル関数の合成+ガウスノイズということで対数尤度が Σt (x(t) - Σk wk N(μ k, σk))^2 に比例する形になって,この尤度関数に対してEMを適用すれば,背後の思想八階ますが,ほぼ同じようなものが得られる気がします.

2012-08-23 17:08:08
tori tori @toritorix

@shima__shima なるほど.しかし,よく考えてみるとやはり今のモデルで良いような気もします.今はGMMではなく,混合対数正規分布でモデル化しているのですが,ある事象(t=0)の発生後つぶやきが発生する時刻の確率を表した分布なので,見たいものは合っている気が.

2012-08-23 17:39:30
しましま @shima__shima

.@toritorix 解釈面で,t 方向に確率的な揺らぎがあるということに留意されていれば,混合分布でモデリングされてよいかと私は考えます.両方された上で,異なる解釈から同じデータを分析されるとかもあるのかもしれません.

2012-08-23 17:43:10
tori tori @toritorix

@shima__shima t方向への揺らぎを持ったモデルでOkです。つぶやき数ではなく「つぶやきからのRTの時間遅れの分布」にあたるわけです。なのでt方向に揺らぎがある。一連の議論で自分のモデルの理解が深まりました。ありがとうございます!

2012-08-23 17:52:34
しましま @shima__shima

.@toritorix 単純な混合モデルだと互いの μi の間になんの関連もないので,その解釈だと行き過ぎに思います.時刻 μ1…μK 互いの関連性は分からないけどつぶやきを誘因する因子があるというところまでならいえるかと思いますが…

2012-08-23 17:57:05
tori tori @toritorix

@shima__shima つぶやきの分布ではなく時刻0に行われたつぶやきへのRTの「つぶやきからの時間遅れ」の分布をモデル化しようとしていますが、そういうことではないですか?

2012-08-23 18:07:35
しましま @shima__shima

.@toritorix モデル自体には時間遅れの要因が,自己回帰モデルみたいに,明示的に化されていないので,私としてはちょっと主張が強すぎるように思います.

2012-08-23 18:17:25
tori tori @toritorix

@shima__shima あーそれはありますね。うーん、そこは感覚的にこういうもんだで片付けていますが、どうするものなんでしょうか・・・

2012-08-23 18:22:24
しましま @shima__shima

.@toritorix 統計的にちゃんと処理しようとすると,時間遅れの要素を入れたモデルと独立なモデルをつかってモデル選択で相対的にどっちがいいかと示すか,危険率を固定して時間遅れのある方がいいという検定(尤度比とかでできるかと)をするのがすぐに思いつく手です.

2012-08-23 18:24:03
tori tori @toritorix

@shima__shima う~ん,ちょっとこの辺はピンときていないですね.対数正規分布を採用しているのが微妙なのは認識しているのですが.

2012-08-23 21:29:23
しましま @shima__shima

.@toritorix 生成モデルが明確で尤度は計算できてるのでAICあたりのモデル選択や,対数尤度比検定ならストレートにできるように思います.時間遅れを明確にモデリングするのはいろいろやり方は考えられそうですが,なんか確率過程を考えないといけなさそうな感じで面倒そうですね

2012-08-23 22:00:40
tori tori @toritorix

@shima__shima 時間遅れに関しては,今回のモデル化とは少し違うところで考えようかなと思っています.

2012-08-23 22:24:52
しましま @shima__shima

.@toritorix 誰かがRTした効果とかを明示的に入れ込むのは確かに面倒そうですね

2012-08-23 22:42:52
tori tori @toritorix

@shima__shima そうですよね.とりあえず今のモデルでも悪くなさそうかなという感じなので,分析を進めてみます.

2012-08-23 22:54:18