バイアス・バリアンス分離のまとめ

@niamさん、@shima__shimaさん、@wk77さんによるバイアス・バリアンス分離に関するディスカッション。「誰でも編集可」に設定してありますので、気軽に追加、修正お願いします。
1
イルカ人間 @niam

@shima__shima どれが一番性能に影響するかが分かる、という流れですね。ところで、また、非常に基礎的な質問なのですが、結局、データの真の分布が分かっていない現実的なデータで汎化誤差、バイアス、ノイズを推定するにはどうするのでしょうか?

2010-09-16 04:53:03
しましま @shima__shima

データの量に応じて適切な素性・モデルは変わるので,独立には決まらないと思います RT @niam: どれが一番性能に影響するかが分かる、という流れですね。

2010-09-16 04:57:23
イルカ人間 @niam

@shima__shima あ、はい。夜遅くまで、ありがとうございます。すみません、表現が悪かったです。独立には決まらないことは理解しています。

2010-09-16 05:01:11
しましま @shima__shima

どっからどこまでがバイアスで,バリアンスかは見てもわからないですね.それどころか,回帰ではバイアス=バリアンス分解にはコンセンサスがありますが,分類ではその定義さえコンセンサスがあります RT @niam: 結局、データの真の分布が分かっていない現実的なデータで汎化誤差、バイア…

2010-09-16 05:04:19
イルカ人間 @niam

@shima__shima 元々の意図を伝えておくと「1/0の二値判別で、テストデータに1が非常に多くxx%以上の場合は、この手法を使わず全部0だと思った方が精度が高い」と論文に書きたくて、もちろんxx%は閾値として実験すれば求められるのですが、その根拠を説明したかったのです

2010-09-16 05:10:00
wk @wk77

RT @shima__shima: どっからどこまでがバイアスで,バリアンスかは見てもわからないですね.それどころか,回帰ではバイアス=バリアンス分解にはコンセンサスがありますが,分類ではその定義さえコンセンサスがあります RT @niam: 結局、データの真の分布が分かっていない現実的なデータで汎化誤差、バイア…

2010-09-16 05:22:54
しましま @shima__shima

.@niam それは imbalanced data (不均衡データ) の問題で,それは特殊なケースかと

2010-09-16 05:41:04
イルカ人間 @niam

@shima__shima まぁ、読んでいたのが、杉山先生の、この資料だったので…。思いっきり共変量シフトの問題だな、と @shima__shima 先生と話していて気が付きました。 http://ow.ly/2ERzJ

2010-09-16 05:50:45
しましま @shima__shima

.@niam テスト側が偏ってるってのは訓練も偏ってるってことではないのですね.この場合は y のクラスが違ってるので,より広範囲の転移学習の問題ですが,共変量が違ってるわけではないので共変量シフトにはあたらないと思います.

2010-09-16 05:55:26
しましま @shima__shima

.@niam 生成モデル系ならPRML本の1.5.4節にあるクラスの事前確率の補正でしのぐやつですね

2010-09-16 05:58:13
wk @wk77

「回帰ではバイアス=バリアンス分解にはコンセンサスがありますが,分類ではその定義さえコンセンサスがあります」とおっしゃってるけど、「分類ではその定義さえコンセンサスがありません」が正しいんだろうな

2010-09-16 06:00:27
イルカ人間 @niam

@shima__shima すみません、単純にp_train(x,t), p_test(x,t) (tはlabel、xが入力)として、p_trainとp_testが違っているというのが共変量シフトの問題設定だと思っていたのですが、そうではないのですか?

2010-09-16 06:01:05
しましま @shima__shima

.@niam 共変量シフトは共変量のシフトなので p(t|x) は変わらないってどっかにありませんか? ここでは,t の分布が変わるのですよね?

2010-09-16 06:07:51
イルカ人間 @niam

@shima__shima PRMLの1.5.4節を見ましたが、式(1.82)を一瞥して、テストデータのクラスの事前確率P(C_k)が分からないはず…、と思ったら、よく考えたら、自分の問題設定では一応訓練データから概算できることに気が付きました(汗 p(x)は分かりませんが分母…

2010-09-16 06:08:37
イルカ人間 @niam

@shima__shima …って、p(x)も分かりますね。すみません。ちょっと、これで実験しなおしてみます。

2010-09-16 06:09:59
wk @wk77

バイアスバリアンスは線形モデルに限らない一般的な概念だし、条件付き分布を決定するのに「最小自乗法より洗練された方法(例えば正則化やベイズ学習法など)を用いればよいだろう」とPRML3.2節にもあるように、正則化はいくつかある手段のうちの一つと考えるべきなのかな

2010-09-16 06:11:12
イルカ人間 @niam

@shima__shima いずれにしても、xx%を計算で求めようとすると、入力データに分布を仮定しないことには話が始まらず、今回は入力データに分布を仮定せずに識別モデルでやっているので、関係ないということがわかりました。ありがとうございます。

2010-09-16 06:19:33
wk @wk77

昔は「基底&パラメータ」の意味でモデルという言葉をよく使っていたのだけど、正則化(項)や超パラメータ最適化といった「モデルパラメータの調整方法」も、モデルという言葉の意味に含まれるのかな?数式自体はモデルパラメータの調整方法にも依存するわけだし。

2010-09-16 06:20:19
wk @wk77

@niam 先程の件、神嶌先生からご返事ありましたし、私はよくわからずご返答できずで申し訳ないです。niamさんが困難な問題に取り組まれている故の苦悩に、声を掛けるのも難しいなと思いつつ、心の中で応援しております。また私のわかることでしたら議論させて頂ければうれしいです

2010-09-16 06:29:29
イルカ人間 @niam

@shima__shima あ、理解しました。真のp(t|x)は不変だが、p(x)が訓練とテストで変わるのが共変量シフトの問題設定でしたね。自分の問題を考えなおしてみましたが、共変量シフトの問題設定であっています。 http://ow.ly/2ESOD

2010-09-16 06:35:30
イルカ人間 @niam

@shima__shima 逆に、共変量シフトでない問題設定というのは、真のp(t|x)も訓練とテストで変わってしまう(つまり、訓練の時は山と入力したら川、と返すのが正しかったのに、テストの時は、山と入力したら森と返すのが正しい、ことになっている)場合ですね。

2010-09-16 06:37:29
しましま @shima__shima

.@niam p(x|t) は同じだけど,p(t) が違うってパターンと,同時確率が分解してもそもそも違ってるパターンとかですね.転移学習だど,X や T のドメインも違うってパターンもあります

2010-09-16 06:40:03
イルカ人間 @niam

@shima__shima なるほど。すみません、そのぐらいの、共変量シフトでない例は山川みたいな例を出さなくても、すぐに出てくるべきでしたね。ありがとうございます。おかげで、この問題の本質が自分の中で分かってきました。

2010-09-16 06:44:12
イルカ人間 @niam

@wk77 @shima__shima バイアス・バリアンス復習:(モデルが複雑, 正則化項が効いていない, モデルの自由度小, 低バリアンス, 高バイアス), (モデルが簡単, 正則化項が効きすぎ, モデルの自由度大, 高バリアンス, 低バイアス)で、あってますでしょうか。

2010-09-16 07:03:13
イルカ人間 @niam

@wk77 場合によると思いますが、先程の話では、正則化項を変えても真のデータの分布や訓練データ集合は意味的に不変なので、モデルが変わるしかないのでは。>正則化(項)や超パラメータ最適化といった「モデルパラメータの調整方法」も、モデルという言葉の意味に含まれるのかな?

2010-09-16 07:13:55