@shima__shima さんとの分布モデルに関する議論

@toritorix@shima__shimaさんに分布モデルに関するアドバイスをもらっている様子.
2
tori tori @toritorix

複数の時系列データからそれぞれの混合正規分布モデルを推定したときに,どうやってクラスタリングすればいいんだろう?

2012-08-21 16:55:26
tori tori @toritorix

そうか,つまり確率密度分布の類似度を測る問題に帰着するのか.・・・どうやるんだ?

2012-08-21 17:59:58
しましま @shima__shima

.@toritorix 分布の差であればKLダイバージェンス(対称にしたいならJSダイバージェンス)かヘリンジャー距離あたりが普通かと

2012-08-23 05:58:08
しましま @shima__shima

.@toritorix 先日の時間軸方向に分布が広がっているあてはめ問題でしょうか?やはり時間方向じゃなくて,観測量の大小の方向に分布が広がるようにしないといけないような.混合風にした曲線を当てはめる目的ならsplineの回帰あたりとかかと

2012-08-23 06:01:35
しましま @shima__shima

.@toritorix このあたりなら http://t.co/3xShdY7Y の5章あたりがご参考になるかと

2012-08-23 06:06:53
tori tori @toritorix

@shima__shima アドバイスありがとうございます.観測量の大小とは?複数のバースト(若干違うけど)が存在する時系列データをバーストごとに分離したいので,時間軸方向の分布で正しく,Splineでは目的を達せられないような気がします.

2012-08-23 08:57:26
しましま @shima__shima

.@toritorix お話をお伺いしたとき今ひとつ理解できなかったのですが,ノイズの表現はどのように行われているのでしょうか? 時系列 x(t) = <何かの曲線の項> + <ノイズの項> の形になっていないとあてはめはできないかと思います.>続

2012-08-23 12:38:03
しましま @shima__shima

.@toritorix 曲線の項が,Σi N(μi, σi) の形になっていること自体は,spline を含むカーネル関数を使ったモデリングなので問題はないのです.しかし,あてはめに使われたモデルでは加算ノイズ項がないのではないかと思います.>続

2012-08-23 12:46:51
しましま @shima__shima

.@toritorix x(t) を t での密度と考えて混合正規であてはめると,t 方向にゆらぎがあり,時刻 t での観測量の密度をモデリングしたことになります.一方,曲線+ノイズ項だと t 方向ではなく,各時刻 t での x(t) の大小方向のゆらぎのモデリングとなります>続

2012-08-23 12:49:40
しましま @shima__shima

.@toritorix つぶやきがのあるなしは決まっていてその時刻にゆらぎがあるのではなく,各時刻ごとにつぶやきのあるなしのランダム性があるため後者のモデリングでなければならないと思うのですが,いかがでしょうか?

2012-08-23 12:51:55
tori tori @toritorix

@shima__shima なるほど,ノイズについては考えていませんでした.ちょっとまだsplineの回帰がきちんと理解できてはいないんですが,「時刻 t での観測量の密度をモデリング」というのがモデル化の目的には合致しているように思います.

2012-08-23 15:06:45
しましま @shima__shima

.@toritorix お話をお伺いして疑問に思ったのは,つぶやきがあったときその時刻に不確実性があるのではなくて,時刻 t で観測したことは確かで,そのときつぶやきの数に不確実性があるのではということです.>続

2012-08-23 15:12:01
しましま @shima__shima

.@toritorix 観測時刻はサンプリングする時刻なので確実かと思います.なので,この場合は時刻にランダム性がある密度ではなく,回帰型の定式化で各時刻ごとに観測数+ノイズ項という形のモデリングが適切ではと思った次第です.

2012-08-23 15:14:12
tori tori @toritorix

@shima__shima spline回帰あたりの理解が不十分で訳の分からないことを言っていたら申し訳ないのですが,今回の目的は「ある複数の分布P_kに従ってつぶやきが行われていて,観測されるのはその混合系であるときに,分布P_kをそれぞれ推定したい」ということにあります.続

2012-08-23 15:26:13
tori tori @toritorix

@shima__shima このような目的は,spline回帰を用いたモデル化で実現可能なのでしょうか?

2012-08-23 15:26:52
しましま @shima__shima

.@toritorix 回帰モデルでも,fi を何かガウスでも spline も何か台や要素となる関数として,Σi fi(t) + ノイズ項 というモデリングをしてあてはめをすれば,複数の要素 f(I) に分解することは可能化と思います.

2012-08-23 15:33:50
しましま @shima__shima

.@toritorix ポイントは,どの変量が確率的に振る舞うのかということです.混合ガウスはクラスタリングとかに使いますが,そのとき x が [0,10] の空間のどこかに発生しますが,その位置に不確定性があります.ですので,位置方向=xの大小にランダム性があると考えます.

2012-08-23 15:36:21
しましま @shima__shima

.@toritorix それに対し,回帰だと x の場所を見ていたら 3 が見えたというとき,3という値の大小にランダム性が考えられます.なので f(x)+ノイズ でモデリングすることになります.

2012-08-23 15:38:00
しましま @shima__shima

.@toritorix 時系列だと,過去から未来までの空間を同時にみていて,時間軸方向にランダム性があるような観測をするのではなく,各時間ごとにランダムに変動する値を観測するので,回帰型のモデリングが適切ではと思った次第です.

2012-08-23 15:39:09
しましま @shima__shima

.@toritorix 観測時刻は確定的にきまるため,あまり時刻 t を確率変数と考えず,普通の変数と考えるモデリングが広く使われるので疑問に思った次第です.

2012-08-23 15:41:35
tori tori @toritorix

@shima__shima なるほど.理解しました.とすると,「N個観測されたつぶやきの時間方向の分布を求めたい」という目的だと時間方向で見てよいのではないかと思うのですが,どうでしょう?続

2012-08-23 15:50:02
しましま @shima__shima

.@toritorix モデリングの差でいえば,t 方向のランダム性なら t 〜 Σi αi f(i) という混合分布から,時刻tにおける観測量の変動なら x(t) 〜 [Σi αi fi(t)] + ガウスノイズ ということになるかと

2012-08-23 15:50:09
tori tori @toritorix

@shima__shima つまり,N個のつぶやきが観測されているときに,それぞれのつぶやきがいつ行われたかをモデル化しているわけです.

2012-08-23 15:50:15
しましま @shima__shima

.@toritorix 今,行われているモデリングを解釈するのであればそうなるかと思います.ただ,過去から未来までの空間を同時に観測しているので,時系列のモデリングとしてはちょっと不自然に感じた次第です.

2012-08-23 15:52:22
tori tori @toritorix

@shima__shima そうなんですね.そこの不自然さがよくわかっていないのが問題なのかもしれないです.今回の観測データの場合Nも確定的なものなので,x(t)にノイズを乗せたモデルというのも不自然ではないかと思うのですが,これは何か理解不足があるのでしょうか.

2012-08-23 16:01:24