統計的学習の基礎読書会 第三回 #カステラ本

0
ちゃば @Tea_Server

最良変数組み合わせ選択 ・最も残渣の少ない変数の組み合わせを試す ・pは30~40程度が限界 #カステラ本

2016-06-14 20:32:45
ちゃば @Tea_Server

前向き漸次的選択法 今持っているものに合いそうなもの(残差を小さくする)を持ってくる デメリット ・局所最適しかできない メリット ・速い ・過学習しにくい #カステラ本

2016-06-14 20:34:52
ちゃば @Tea_Server

後向き漸次的選択法 全変数を含めたモデルからはじめて減らしていく #カステラ本

2016-06-14 20:35:37
ちゃば @Tea_Server

これら3つの手法の性能はどれも大差ない(線形回帰を人口データに基づいて実行) #カステラ本

2016-06-14 20:36:57
siero @siero5335

Rだとstep関数でなんやかんやするあたりですね #カステラ本

2016-06-14 20:37:01
ちゃば @Tea_Server

前向き段階的回帰 1. データと予測変数を中心化する 2. 予測変数βは0で初期化 3. データ残差との相関の大きい変数を選択して残差との単回帰係数をβに加算 4. 残差と相関を持つ変数がなくなるまで3を繰り返す 高次元のケースでは都合がよい #カステラ本

2016-06-14 20:39:22
gepuro @gepuro

普段は変数減少法を使ってますが、増加法でも変わらないのか。 #カステラ本

2016-06-14 20:40:23
ちゃば @Tea_Server

10分割交差確認 1. データを10個に分けて9個を訓練、1個を検証に使用する 2. 1を全てのグループに対して行う #カステラ本

2016-06-14 20:41:23
ちゃば @Tea_Server

リッジ回帰 残差二乗和だけではなく回帰係数の二乗和を加えたもの(罰則)を最小化する #カステラ本

2016-06-14 20:42:58
ちゃば @Tea_Server

リッジ回帰は入力変数の大きさに影響を受けやすいので標準化(中心化)しておく必要がある #カステラ本

2016-06-14 20:44:28
siero @siero5335

RおじさんがRidge回帰とかLassoについてRでやる時用のスライドあげてくれてますね: 5分でわかるかもしれないglmnet by @teramonagi slideshare.net/teramonagi/5gl… #カステラ本

2016-06-14 20:46:28
gotzy @GotzyT

#カステラ本 余談だけど、 lassoって、 ラスー って読むって 以前誰かがツイートしてたような。 ほんと?

2016-06-14 20:47:24
ちゃば @Tea_Server

特異値分解による表現(3.45) 以降V^t V=V V^t = I, D^t U^t UD = D^2が成立するとする #カステラ本

2016-06-14 20:58:40
ちゃば @Tea_Server

式(3.46)と(3.47) yのuj成分をdj^2 / (d + λ)倍に縮小して出力している #カステラ本

2016-06-14 21:01:01
siero @siero5335

予習して流れは掴んだとはなんだったのか #カステラ本

2016-06-14 21:05:42
やまかつ @yamakatu

今から最後のピックアップいきますー #カステラ本

2016-06-14 21:06:45
ちゃば @Tea_Server

リッジ回帰は分散のより小さい方向(図3.9の左上から右下に向かう方の線)の係数を抑えて分散が大きくなる可能性を抑える #カステラ本

2016-06-14 21:07:38
ちゃば @Tea_Server

Yahooに@yamakatu氏の紹介で入るともれなくカステラ本が贈呈されます!!! #カステラ本

2016-06-14 21:09:46
まつけん @Kenmatsu4

リッジ回帰はパラメーターの事前分布が正規分布とみなせるんですね、なるほど。確か、Lassoはパラメータのー事前分布をラプラス分布とすると見た気がしますね。 #カステラ本

2016-06-14 21:10:26
ちゃば @Tea_Server

推定予測誤差とリッジ回帰の有効自由度との関係(図3.7) 線形二乗回帰よりも評価誤差が減少している #カステラ本

2016-06-14 21:12:44
ちゃば @Tea_Server

リッジ回帰で Σβ^2 の部分がlassoでは Σ|βj| になっている #カステラ本

2016-06-14 21:22:21
ちゃば @Tea_Server

Lasso ・tを小さくすると係数のいくつかのパラメータが完全に0になる ・t=t0/2とすると係数は50%減少 #カステラ本

2016-06-14 21:24:14
ちゃば @Tea_Server

前立腺がんのデータ(図3.7)では2番目よかった #カステラ本

2016-06-14 21:25:13