重回帰分析の説明変数に用いるカテゴリカル変数の考え方

@Manyaces おせっかいかもしれませんが返信。2値の場合、ダミー(01)とコントラスト(-1,1)は平均が0であるか否か（もちろん分散もちがうけど）が違います。交互作用を見る場合、平均を0にする必要があるので、ダミー(01)を使うのはよろしくないです。続きます。

2011-03-15 06:34:07

@Manyaces もしダミーで平均を0にして交互作用項を計算したなら(-0.5,0.5)、回帰係数は半分になっているはずです。HADはカテゴリカルを-0.5、0.5のコントラストで計算しています（データのバランスは調整してますが）。続きます。

2011-03-15 06:36:23

@Manyaces 回帰係数は説明変数が1増えたときの目的変数の増加量ですから、-1,1よりも-0.5,0.5のほうが回帰係数の意味がわかりやすいと思います。階層的重回帰の場合は標準化係数より効果サイズを見るのがオススメです。以上です。

2011-03-15 06:37:35

@simizu706 @Manyaces 話はすごくよく分かるのですが、Aiken & West(1991)やJaccard & Turrisi(2003)なんかはダミー変数で交互作用項を形成して紹介してますよね。実践的な意味でどうしたものか迷うときがあります。

2011-03-15 07:55:51

@gsd9720 @Manyaces さっきのは2値の場合で、3条件以上の交互作用の場合は話が変わってきます。3値変数の場合は要因の平均値を推定するのは難しいので、コントラスト変数を使うことは意味がないと思います。なので、本などにあるようにダミー変数を使うほうがいいと思います。

2011-03-15 08:26:57

@simizu706 @Manyaces ありがとうございます。同意です。ただ、先述の本などは2値データでもダミーでやったりしてますね。検定や標準化係数のことを脇に置くと、ダミーは統制群と実験群という意味合いをはっきりさせやすいということがあるんでしょうねえ。逆に言えばそれだけ？

2011-03-15 10:10:57

@gsd9720 @Manyaces おそらくそうなのだと思います。僕としては切片の意味がわかりやすくなるように中心化したほうがいいと思うのですが、それとは別のロジックがもしかしたらあるのかもしれません。ないかもしれませんが・・・。

2011-03-15 10:24:50

@simizu706 @Manyaces そうです。仰るとおり切片の考え方なのだと思います。中心化した場合は平均に意味を持たせることになりますが、統制vs実験だと統制に意味を持たせないといけないですよね。その場合、ダミーの方が分かりやすくなる（or適切になる）んだと思います。

2011-03-15 10:27:23

@simizu706 @Manyaces Aiken & West(1991)などは、記述としての回帰分析を考えているふしがありますから、場合によってはダミーを推奨するんでしょうね。あとは、先に議論があったとおり、3値データとの連結のわかりやすさを考えているのでしょう。

2011-03-15 10:29:33

@gsd9720 @simizu706 @Manyaces 横から失礼します。Aiken & West(1991)を当たってみましたが、まさしく統制vs.実験という考え方においてその「平均」の意味を見いだすのは･･･という立場っぽいですね（ｐ129あたり）

2011-03-15 10:30:37

@kazutan @simizu706 @Manyaces おお、ありがとう。だよねー。記述としての回帰分析というのが、Cohen以来の彼らの主張だと思います。その意味で、非標準化係数を重視するし、時に有意でなくても切片や係数に意味を見いだそうとするんだと思います。

2011-03-15 10:32:56

@gsd9720 @Manyaces なるほど、統制条件がある場合はダミーのほうがいいかもしれません。ただ、中心化せずに交互作用項をつくると、主効果のダミーと相関ができてしまいます。それによって普通の分散分析と結果（係数とか）が変わってしまうので注意が必要ですね。

2011-03-15 10:33:38

@kazutan @gsd9720 @Manyaces ありがとうございます。勉強になります。僕は性別とかそういうのを意識してました。

2011-03-15 10:34:32

@simizu706 @gsd9720 @Manyacesもし、そういうような「平均的な」場合の効果を検討したい場合には、Darlington(1990)に書いてあるWeighted effects codesを使用しろtoありました(p130)。その本は持ってないですが･･･

2011-03-15 10:37:27

@simizu706 @Manyaces 仰るとおりです。数学的な一致を目指すとなると、大きな問題になります。一方で、調査や実験における実践となると、メリット、デメリットを知った上で選択、となるんでしょうね。このニュアンスの違いを知っておくべきだし、どう教えるかがしんどい。

2011-03-15 10:38:33

@kazutan @gsd9720 @Manyaces おお、いろいろ本があるんですね。なるほど。おそらく人数で重み付けをした平均を使えということでしょうね。ダミーの場合でもアンバランスドだと平均がそのまま0.5になるわけではないですからね。

2011-03-15 10:39:16

daigaku-nekoΦωΦ @Manyaces

@simizu706 @kazutan @gsd9720 やはり人数がアンバランスならその重みづけも考慮するほうがいいわけですよね…。Cohenら（2004?）で人数での重みづけについて言及されていましたっけ。

2011-03-15 10:41:37

@simizu706 @gsd9720 @Manyaces その通りで、人数の不均衡を是正するための重み付けです。それらの書籍が手元にないので具体は示せませんが･･･

2011-03-15 10:42:52

@simizu706 @kazutan @Manyaces 性別だと、-1,+1で相対化した方がいいですよね。0に積極的意味もあるだろうし。Jaccard & Turrisi(2003)では性別にダミーを当ててました。男性が0になっていて、伝統的性役割観を垣間見てしまいましたよw

2011-03-15 10:41:54

@gsd9720 @kazutan @Manyaces TL速い・・・。個人的な意見では、-1と+1では回帰係数の意味が2倍になってしまうので、-0.5と+0.5にしたほうがいいように思います。たしかに、ダミーの作り方は無意識な信念を反映するかもしれませんね(笑)。

2011-03-15 10:45:13

@gsd9720 @simizu706 @Manyaces (0,1)にする積極的な理由として、下位検定の容易さがありますね。これは手間が半分くらいになるのでは？

2011-03-15 10:44:54

@kazutan @gsd9720 @Manyaces その利点は盲点でした。なるほど、それは確かにそうですね。

2011-03-15 10:46:04

@kazutan @gsd9720 @Manyaces 　ついでにHADでは、カテゴリカルの場合、平均を人数で重みづけた共分散行列を使っています。なので、主効果は分散分析と一致するはずです。

2011-03-15 10:47:46