HDPがわかんないと騒いでいたら、実はLDAがわかってなかった!? でござるの巻

HDP-LDAを理解する上で大いなる助けになると思い、@shuyo さんの許可を得てとげったしました。
4
shuyo @shuyo

新年なので悪のり気味なノンパラ入門なんてのを書いてみた。 : 独断と偏見によるノンパラ入門 http://htn.to/fu5yyK

2011-01-06 15:25:56
shuyo @shuyo

実はボトムアップの構成になってるんで、あのノリでHDPをやろうと思ったら LDA から始めて HDP-LDA に行くとか……ちょっと涙目なんですが(苦笑 RT @suzuvie_re: @shuyo @idojun Polya Urn とかHDPとかまだまだいけますね!

2011-01-06 23:25:54
shuyo @shuyo

HDP(Teh+ 2006) の Gibbs full conditional をやっと自分で導出できた。base measure からのリサンプリングをしなくていいのは、周辺化で消してるからだった。納得。

2011-01-13 13:13:19
shuyo @shuyo

(Teh+ 2006) で納得いかないのは、HDP-LDA の base measure H としてディリクレ分布を使うよ、と言っているところ。H は加算個のトピックの分布なんだから、それがほんまにディリクレ分布で書けるんやったら DP いらんやん! というw

2011-01-13 14:11:53
shuyo @shuyo

(Teh+ 2006) H の事前分布だとしてもやっぱりおかしいし、HDP-LDA = LDA を階層化してノンパラにしたもの、という位置づけで言っても、H は加算濃度の台を持つ一様分布でいいと思うんだけどなあ。

2011-01-13 14:19:07
@suzuvie_re

@shuyo その辺の議論(iHMMとか)では単語数(HMM出力シンボル)NならR^Nの単体があって、ボレルがあって、連続な基底測度H(たとえばディリクレ)があり、アトムは単語の出現比と思います。加算の台で基底というのはどこから出てきたんでしょうか?αは連続ですよね?

2011-01-13 19:51:50
shuyo @shuyo

@suzuvie_re ありがとうございます。こちらは完全に我流なので突っ込みをもらえると嬉しいです。iHMM での基底は、HDP でいう DP(γ,H) に当たるものかと思います。なので、その場合のatomが「単語の出現比」になるのは納得です。

2011-01-13 22:15:20
shuyo @shuyo

@suzuvie_re 一方、HDP-LDA の base H は「 topic の事前分布」(topicの分布の事前分布、ではなく)なんです。要件的には無限であればいいので、「可算個で十分」という方が正しかったですね。そちらに訂正します。

2011-01-13 22:19:22
shuyo @shuyo

@suzuvie_re 当たり前ですが HDP の枠組みが加算個とかを導くわけではありません。定義的にはσ-fieldsさえ持てばいいのかな? Antoniak あたりがDPの定義から、離散な構造で十分的なことを示してたような気がしますが、ちゃんと憶えてません(調べろよって?w)

2011-01-13 22:22:10
enjoy my life @issei_sato

@shuyo Hはコンポーネント上の分布になってませんか? LDAの場合、単語出力分布を生成する分布なのでHは有限(単語数)次元のDirichlet分布になります。 

2011-01-13 22:56:07
shuyo @shuyo

@issei_sato LDA では確かにその通りですね。(Teh+ 2006) の記号を使って書くと、LDA はθ_ji~π_j, π_j~H 、HDP は θ_ji~π_j, π_j~DP(α_0, G_0), G_0~DP(γ, H) なので H が違うんですよ。

2011-01-13 23:10:18
shuyo @shuyo

@issei_sato iHMM の話と同じように、LDA の H に相当するのは HDP では DP(γ, H) になる、という理解です。HDP の H は LDA の αに相当、と言ってもいいかも。

2011-01-13 23:11:48
@suzuvie_re

@shuyo 連続であることは必要でないけれど、HDP-LDAもやってるのは連続で、単語次元シンプレックスの上のディリクレ分布を基底にしてると思ってました。満たすべき性質はなんでもいいから集合とってきて、σ加法族作って、発散しないαを置けばいいものと思われます。

2011-01-13 23:14:29
shuyo @shuyo

@suzuvie_re HMM や LDA の考え方と大差はないという認識で正しいと思います。トピックの分布の事前分布を Dir(α) にしたのが LDA で、DP(α_0, G_0) にしたのが HDP-LDA です。

2011-01-13 23:18:04
@suzuvie_re

@shuyo Hierarchical Dirichlet Processesの18PにGiven an underlying measure H

2011-01-13 23:18:06
shuyo @shuyo

一言で言うと、(Teh+ 2006) の 6.1 で HDP-LDA の H をディリクレ分布としているのは正しいか? ということです。 RT @suzuvie_re: @shuyo ポイントが分からなくなってきたんですが、問題をもう一度教えてください!

2011-01-13 23:31:54
shuyo @shuyo

Hierarchical Bayesian Nonparametric Models with Applications(Teh+ 2010) が (Teh+ 2006) の改訂版(HPY 対応)みたいなものなんですが、そちらにも HDP-LDA は紹介されていて(続く)

2011-01-13 23:32:41
shuyo @shuyo

(続き)そっちを確認すると H は prior over topics とされていて、中谷の認識とあっていました。一方、(Teh+ 2006) では H は prior over topic distribution とされています。

2011-01-13 23:34:40
shuyo @shuyo

H のatomがtopicであることは (Teh+ 2006) にも書かれています。仮に H が prior over topic dist. だったとしても、topic が無限個である以上、そこにディリクレ分布は当てられない(単純に当てれるなら DP いらない)と思うのです。

2011-01-13 23:37:47
しましま @shima__shima

.@shuyo ノンパラベイズは,DPで分割する無限混合正規分布を考え,どんどんテーブルができるα=∞を考えたら,データ点一つごとにテーブルができて,点一つごとに正規分布がくっつく感じになって,カーネル密度推定っぽくなるかと.というわけで,ノンパラベイズという名前でいいのでは?

2011-01-13 23:45:43
shuyo @shuyo

@suzuvie_re ですよね。で、 prior over topics ならディリクレ分布にはなるはずないと思うんです。ファーガソン的な、はあんまりがんばって探してませんが、前に少し見た範囲では見つけられませんでした。まあ DP は共役ではないので、きっと計算できないw

2011-01-14 00:12:27
shuyo @shuyo

@suzuvie_re 一方 HPY の concentration=0 なら共役になって、簡単に計算できるから階層が深くなっても大丈夫! って話が sequence memoizer ですよねw

2011-01-14 00:14:24
enjoy my life @issei_sato

@shima__shima @shuyo DPはパラメトリックな連続分布を無限次元の離散分布へ変換すると思えば、ノンパラ感が出てきます。G~DP(α,G_0)の場合、Gは、パラメトリックなG_0と同じ空間をカバーするノンパラメトリックな(無限次元の)離散分布になっています。

2011-01-14 00:14:26
しましま @shima__shima

.@issei_sato @shuyo G0の定義域を任意の有限個に分割したらそれがDirichlet分布になってるからDPはDirichlet分布の無限拡張みたいに考えられるとかいうやつですね.

2011-01-14 00:17:08
enjoy my life @issei_sato

@shuyo Hがtopic の事前分布ということですが、ここでいうtopicというのは特定の単語分布を表していませんか? つまり、単語シンプレックス上のある点をトピックと呼んでいるということです。ちゃんと論文読んでないのでわかりませんが。。。

2011-01-14 00:22:15