R勉強会第2回

Masaki Kase @softest

@yoshimioku サンプルデータを使ったりと、とても面白かったです。あとでツイートしようかと思います。

2011-11-19 19:10:17

Masaki Kase @softest

今日は散布図と回帰分析について勉強しました。散布図とは、例えば商店の単位時間当たりの「客数」と「売上」を二次元座標にプロットしたもの、です。R を使う場合は plot() を使います。

2011-11-19 19:50:25

Masaki Kase @softest

今日の例、「客数(x)」と「売上(y)」の散布図は、視覚的に左下の原点Oから右上に向かってプロットされました。xの算術平均とyの算術平均で2本の軸をとり、第1象限と第3象限（右上と左下）に点が集まると正の相関があるといいます。

2011-11-19 19:54:41

Masaki Kase @softest

逆に第2象限、第4象限に点が集まると負の相関があるといいます。この相関があるなしを数値化・指標化したものを相関係数(=r)といいます。数式は省略しますが、r の範囲は -1 ≦ r ≦ 1 で、0を無相関（相関が全くない）といいます。

2011-11-19 20:00:05

Masaki Kase @softest

相関は統計的指標の一つではありますが、散布図の特徴の一つに過ぎません。勉強会では4つの例を使って、「相関係数が同じだが、全然違う散布図」を見せてもらいました。（たぶん、F.J. Anscombe の The American Statistician, Vol. 27）

2011-11-19 20:03:21

Masaki Kase @softest

散布図の中に「外れ値」が含まれる場合があります。明らかな場合もありますが、外れ値かどうかの目安としては、「第3四分位点からだいたい四分位範囲×1.5の幅よりも外れているかどうか」というものがあるそうです。

2011-11-19 20:07:25

Masaki Kase @softest

R の散布図では、周辺箱ひげ図を表示すると、この外れ値が○で表示されます。

2011-11-19 20:09:18

Masaki Kase @softest

箱ひげ図の真ん中はメジアン（中央値）、四分位点は25%のデータがある範囲を表すので、外れ値を除外しただけではあまり影響はない（ロバスト性）と考える。

2011-11-19 20:12:11

Masaki Kase @softest

小池さんや野中先生は、外れ値を除外する他に、対数変換による補正をするそうです。

2011-11-19 20:13:50

Masaki Kase @softest

R では、cor(データセット名)　や pairs(データセット名)　で相関係数・行列が計算できるようです。

2011-11-19 20:15:06

Masaki Kase @softest

R で生成した散布図は右クリック→メタファイルにコピーとすれば、エクセルなどに散布図をペーストできます。便利！

2011-11-19 20:16:39

Masaki Kase @softest

R comannder で散布図を作成→外れ値を除外、というのを何か条件式で操作できそうなんですが、勉強会では「これだ！」というやり方が見つかりませんでした。宿題だ。

2011-11-19 20:18:03

Masaki Kase @softest

続いて、（単）回帰分析ですが、散布図にいい感じの直線を見つけて、目的変数を予想できたりする統計情報です。直線なので、中学の頃みた一次関数（y=ax + b）といった数式なわけです。

2011-11-19 20:21:31

Masaki Kase @softest

ところで、xの算術平均は慣例としてxの上にバーを書いた記号を使い、目的変数は、yの上にハットを書いた記号を使います。

2011-11-19 20:23:47

Masaki Kase @softest

閑話休題。回帰直線は、残差の大きさ（平行）の総量が最も少なくなるような仕組みで計算しますが、R commander を使えば、統計量→モデルへの適合→線形回帰　で簡単に計算できます。

2011-11-19 20:27:02

Masaki Kase @softest

ここで、目的変数（だいたい y のほう）と説明変数（だいたい x とか）という二つの項目がありますが、よく逆に設定してしまいます。先ほども述べましたが、回帰直線は y = ax + b なので x で等式を変換すれば再計算がいらないのではないかと思われますが、、、

2011-11-19 20:29:05

Masaki Kase @softest

それは NG です。残差は y 方向（縦方向）なので、x と y を入れ替えると、計算が違ってしまうからです。

2011-11-19 20:31:33

小池利和 @koike0125

そう。ここの説明がいつもうまく出来ないので、直感的な説明が出来るデータ例を作ろうと思っています。でも、それはSQiPワークショップにて。 @softest: それは NG です。残差は y 方向（縦方向）なので、x と y を入れ替えると、計算が違ってしまうからです。

2011-11-19 20:34:52

小池利和 @koike0125

回帰分析に関して、今回はあまり深いところまで踏み込むのは止めておきましたが、いつかまた取り扱いたいなと思っています。重回帰にも触れていませんし @softest: 閑話休題。回帰直線は、残差の大きさ（平行）の総量が最も少なくなるような仕組みで計算しますが～

2011-11-19 20:30:54

Masaki Kase @softest

ちなみに線形（linear）は日本語では一次関数の「一次」のことをさします。ということなので線形回帰といったら回帰直線のことをいっています。一次というのは、yの従属変数が1個だけという意味ですね。たぶん。

2011-11-19 20:34:51

小池利和 @koike0125

というよりは、２乗とか指数関数とかではない、という意味です @softest: ちなみに線形（linear）は日本語では一次関数の「一次」のことをさします。ということなので線形回帰といったら回帰直線のことをいっています。一次というのは、yの従属変数が1個だけという意味ですね

2011-11-19 20:36:47

Masaki Kase @softest

R commander で線形回帰を計算するといくつか統計量がでてきます。Intercept は切片（y切片）です。x=0のときのyの値で、回帰直線 y = ax + b でいえば b です。

2011-11-19 20:36:42

小池利和 @koike0125

R Commanderの線形回帰の操作で、従属変数を複数選べます。つまり重回帰分析も線形モデルです。 @softest 一次というのは、yの従属変数が1個だけという意味ですね

2011-11-19 20:40:09

Masaki Kase @softest

その下に表示される結果（回帰係数）は、回帰直線の傾き、y = ax + b の a にあたります。a = 0 だと、y = b(一定)なので回帰分析が意味をなさなくなるので、a = 0 にならないことを期待します。イイ感じならば回帰係数の横にアスタリスクがつきます。

2011-11-19 20:42:11

Masaki Kase @softest

Multiple R-squared　というのは決定係数（寄与率）を表し、1に近ければ近いほど、モデル（回帰直線）が観測データにマッチしているという意味合いです。結果をみるときは　Adjusted R-squared　というほうを見るとよいです。

2011-11-19 20:46:36

いま話題のタグ