<a class="info_title emj" href="https://togetter.com/li/50987" title="バイアス・バリアンス分離のまとめ">バイアス・バリアンス分離のまとめ

データの量に応じて適切な素性・モデルは変わるので，独立には決まらないと思います RT @niam: どれが一番性能に影響するかが分かる、という流れですね。

2010-09-16 04:57:23

@shima__shima あ、はい。夜遅くまで、ありがとうございます。すみません、表現が悪かったです。独立には決まらないことは理解しています。

2010-09-16 05:01:11

どっからどこまでがバイアスで，バリアンスかは見てもわからないですね．それどころか，回帰ではバイアス=バリアンス分解にはコンセンサスがありますが，分類ではその定義さえコンセンサスがあります RT @niam: 結局、データの真の分布が分かっていない現実的なデータで汎化誤差、バイア…

2010-09-16 05:04:19

@shima__shima 元々の意図を伝えておくと「1/0の二値判別で、テストデータに1が非常に多くxx%以上の場合は、この手法を使わず全部0だと思った方が精度が高い」と論文に書きたくて、もちろんxx%は閾値として実験すれば求められるのですが、その根拠を説明したかったのです

2010-09-16 05:10:00

RT @shima__shima: どっからどこまでがバイアスで，バリアンスかは見てもわからないですね．それどころか，回帰ではバイアス=バリアンス分解にはコンセンサスがありますが，分類ではその定義さえコンセンサスがあります RT @niam: 結局、データの真の分布が分かっていない現実的なデータで汎化誤差、バイア…

2010-09-16 05:22:54

.@niam それは imbalanced data (不均衡データ) の問題で，それは特殊なケースかと

2010-09-16 05:41:04

@shima__shima まぁ、読んでいたのが、杉山先生の、この資料だったので…。思いっきり共変量シフトの問題だな、と @shima__shima 先生と話していて気が付きました。 http://ow.ly/2ERzJ

2010-09-16 05:50:45

.@niam テスト側が偏ってるってのは訓練も偏ってるってことではないのですね．この場合は y のクラスが違ってるので，より広範囲の転移学習の問題ですが，共変量が違ってるわけではないので共変量シフトにはあたらないと思います．

2010-09-16 05:55:26

.@niam 生成モデル系ならPRML本の1.5.4節にあるクラスの事前確率の補正でしのぐやつですね

2010-09-16 05:58:13

「回帰ではバイアス=バリアンス分解にはコンセンサスがありますが，分類ではその定義さえコンセンサスがあります」とおっしゃってるけど、「分類ではその定義さえコンセンサスがありません」が正しいんだろうな

2010-09-16 06:00:27

@shima__shima すみません、単純にp_train(x,t), p_test(x,t)　（tはlabel、xが入力）として、p_trainとp_testが違っているというのが共変量シフトの問題設定だと思っていたのですが、そうではないのですか？

2010-09-16 06:01:05

.@niam 共変量シフトは共変量のシフトなので p(t|x) は変わらないってどっかにありませんか？ここでは，t の分布が変わるのですよね？

2010-09-16 06:07:51

@shima__shima PRMLの1.5.4節を見ましたが、式(1.82)を一瞥して、テストデータのクラスの事前確率P(C_k)が分からないはず…、と思ったら、よく考えたら、自分の問題設定では一応訓練データから概算できることに気が付きました（汗　p(x)は分かりませんが分母…

2010-09-16 06:08:37

@shima__shima …って、p(x)も分かりますね。すみません。ちょっと、これで実験しなおしてみます。

2010-09-16 06:09:59

バイアスバリアンスは線形モデルに限らない一般的な概念だし、条件付き分布を決定するのに「最小自乗法より洗練された方法（例えば正則化やベイズ学習法など）を用いればよいだろう」とPRML3.2節にもあるように、正則化はいくつかある手段のうちの一つと考えるべきなのかな

2010-09-16 06:11:12

@shima__shima いずれにしても、xx%を計算で求めようとすると、入力データに分布を仮定しないことには話が始まらず、今回は入力データに分布を仮定せずに識別モデルでやっているので、関係ないということがわかりました。ありがとうございます。

2010-09-16 06:19:33

昔は「基底＆パラメータ」の意味でモデルという言葉をよく使っていたのだけど、正則化（項）や超パラメータ最適化といった「モデルパラメータの調整方法」も、モデルという言葉の意味に含まれるのかな？数式自体はモデルパラメータの調整方法にも依存するわけだし。

2010-09-16 06:20:19

@niam 先程の件、神嶌先生からご返事ありましたし、私はよくわからずご返答できずで申し訳ないです。niamさんが困難な問題に取り組まれている故の苦悩に、声を掛けるのも難しいなと思いつつ、心の中で応援しております。また私のわかることでしたら議論させて頂ければうれしいです

2010-09-16 06:29:29

@shima__shima あ、理解しました。真のp(t|x)は不変だが、p(x)が訓練とテストで変わるのが共変量シフトの問題設定でしたね。自分の問題を考えなおしてみましたが、共変量シフトの問題設定であっています。 http://ow.ly/2ESOD

2010-09-16 06:35:30

@shima__shima 逆に、共変量シフトでない問題設定というのは、真のp(t|x)も訓練とテストで変わってしまう（つまり、訓練の時は山と入力したら川、と返すのが正しかったのに、テストの時は、山と入力したら森と返すのが正しい、ことになっている）場合ですね。

2010-09-16 06:37:29

.@niam p(x|t) は同じだけど，p(t) が違うってパターンと，同時確率が分解してもそもそも違ってるパターンとかですね．転移学習だど，X や T のドメインも違うってパターンもあります

2010-09-16 06:40:03

@shima__shima なるほど。すみません、そのぐらいの、共変量シフトでない例は山川みたいな例を出さなくても、すぐに出てくるべきでしたね。ありがとうございます。おかげで、この問題の本質が自分の中で分かってきました。

2010-09-16 06:44:12

@wk77 @shima__shima バイアス・バリアンス復習：（モデルが複雑, 正則化項が効いていない, モデルの自由度小, 低バリアンス, 高バイアス）, （モデルが簡単, 正則化項が効きすぎ, モデルの自由度大, 高バリアンス, 低バイアス）で、あってますでしょうか。

2010-09-16 07:03:13