重回帰分析の説明変数に用いるカテゴリカル変数の考え方

・カテゴリカル変数(2値の場合の01、±0.5、±1、重みづけの有無等)の考え方やメリットについて、ご教示いただいたものをまとめました。 ・やりとりが錯綜している部分がありますので、その点はあえて時系列順にはせずに、関連するやりとりをできるだけまとめるようにしました。 ・誰でも編集可能の設定にしてありますので、もっと分かりやすい並べ方や、追加情報がございましたら、ご随意に編集してくださいませ。 ・@simizu706さんがブログにて補足記事を書いてくださいました。(重回帰分析を使って交互作用を見る場合の注意点 http://norimune.blog15.fc2.com/blog-entry-617.html) ・発端がManyacesの不十分な理解なのでManyacesのツイートが入っていますが、無能なインタビュアみたいになっていますので、いらないと思ったら削除していただいてかまいません(むしろ削除したり書き替えたりしたいです…)。
9
daigaku-nekoΦωΦ @Manyaces

めも:疑問)カテゴリのいずれも統制といえないカテゴリカル変数を含む重回帰の場合、まずコントラスト変数で見て、単純傾斜の検討でダミーを使用するか?

2011-03-15 01:56:55
Hiroshi Shimizu @simizu706

@Manyaces おせっかいかもしれませんが返信。2値の場合、ダミー(01)とコントラスト(-1,1)は平均が0であるか否か(もちろん分散もちがうけど)が違います。交互作用を見る場合、平均を0にする必要があるので、ダミー(01)を使うのはよろしくないです。続きます。

2011-03-15 06:34:07
Hiroshi Shimizu @simizu706

@Manyaces もしダミーで平均を0にして交互作用項を計算したなら(-0.5,0.5)、回帰係数は半分になっているはずです。HADはカテゴリカルを-0.5、0.5のコントラストで計算しています(データのバランスは調整してますが)。続きます。

2011-03-15 06:36:23
Hiroshi Shimizu @simizu706

@Manyaces 回帰係数は説明変数が1増えたときの目的変数の増加量ですから、-1,1よりも-0.5,0.5のほうが回帰係数の意味がわかりやすいと思います。階層的重回帰の場合は標準化係数より効果サイズを見るのがオススメです。以上です。

2011-03-15 06:37:35
藤島喜嗣 Yoshitsugu Fujishima @gsd9720

@simizu706 @Manyaces 話はすごくよく分かるのですが、Aiken & West(1991)やJaccard & Turrisi(2003)なんかはダミー変数で交互作用項を形成して紹介してますよね。実践的な意味でどうしたものか迷うときがあります。

2011-03-15 07:55:51
Hiroshi Shimizu @simizu706

@gsd9720 @Manyaces さっきのは2値の場合で、3条件以上の交互作用の場合は話が変わってきます。3値変数の場合は要因の平均値を推定するのは難しいので、コントラスト変数を使うことは意味がないと思います。なので、本などにあるようにダミー変数を使うほうがいいと思います。

2011-03-15 08:26:57
藤島喜嗣 Yoshitsugu Fujishima @gsd9720

@simizu706 @Manyaces ありがとうございます。同意です。ただ、先述の本などは2値データでもダミーでやったりしてますね。検定や標準化係数のことを脇に置くと、ダミーは統制群と実験群という意味合いをはっきりさせやすいということがあるんでしょうねえ。逆に言えばそれだけ?

2011-03-15 10:10:57
Hiroshi Shimizu @simizu706

@gsd9720 @Manyaces おそらくそうなのだと思います。僕としては切片の意味がわかりやすくなるように中心化したほうがいいと思うのですが、それとは別のロジックがもしかしたらあるのかもしれません。ないかもしれませんが・・・。

2011-03-15 10:24:50
藤島喜嗣 Yoshitsugu Fujishima @gsd9720

@simizu706 @Manyaces そうです。仰るとおり切片の考え方なのだと思います。中心化した場合は平均に意味を持たせることになりますが、統制vs実験だと統制に意味を持たせないといけないですよね。その場合、ダミーの方が分かりやすくなる(or適切になる)んだと思います。

2011-03-15 10:27:23
藤島喜嗣 Yoshitsugu Fujishima @gsd9720

@simizu706 @Manyaces Aiken & West(1991)などは、記述としての回帰分析を考えているふしがありますから、場合によってはダミーを推奨するんでしょうね。あとは、先に議論があったとおり、3値データとの連結のわかりやすさを考えているのでしょう。

2011-03-15 10:29:33
kazutan @kazutan

@gsd9720 @simizu706 @Manyaces 横から失礼します。Aiken & West(1991)を当たってみましたが、まさしく統制vs.実験という考え方においてその「平均」の意味を見いだすのは・・・という立場っぽいですね(p129あたり)

2011-03-15 10:30:37
藤島喜嗣 Yoshitsugu Fujishima @gsd9720

@kazutan @simizu706 @Manyaces おお、ありがとう。だよねー。記述としての回帰分析というのが、Cohen以来の彼らの主張だと思います。その意味で、非標準化係数を重視するし、時に有意でなくても切片や係数に意味を見いだそうとするんだと思います。

2011-03-15 10:32:56
Hiroshi Shimizu @simizu706

@gsd9720 @Manyaces なるほど、統制条件がある場合はダミーのほうがいいかもしれません。ただ、中心化せずに交互作用項をつくると、主効果のダミーと相関ができてしまいます。それによって普通の分散分析と結果(係数とか)が変わってしまうので注意が必要ですね。

2011-03-15 10:33:38
Hiroshi Shimizu @simizu706

@kazutan @gsd9720 @Manyaces ありがとうございます。勉強になります。僕は性別とかそういうのを意識してました。

2011-03-15 10:34:32
kazutan @kazutan

@simizu706 @gsd9720 @Manyacesもし、そういうような「平均的な」場合の効果を検討したい場合には、Darlington(1990)に書いてあるWeighted effects codesを使用しろtoありました(p130)。その本は持ってないですが・・・

2011-03-15 10:37:27
藤島喜嗣 Yoshitsugu Fujishima @gsd9720

@simizu706 @Manyaces 仰るとおりです。数学的な一致を目指すとなると、大きな問題になります。一方で、調査や実験における実践となると、メリット、デメリットを知った上で選択、となるんでしょうね。このニュアンスの違いを知っておくべきだし、どう教えるかがしんどい。

2011-03-15 10:38:33
Hiroshi Shimizu @simizu706

@kazutan @gsd9720 @Manyaces おお、いろいろ本があるんですね。なるほど。おそらく人数で重み付けをした平均を使えということでしょうね。ダミーの場合でもアンバランスドだと平均がそのまま0.5になるわけではないですからね。

2011-03-15 10:39:16
daigaku-nekoΦωΦ @Manyaces

@simizu706 @kazutan @gsd9720 やはり人数がアンバランスならその重みづけも考慮するほうがいいわけですよね…。Cohenら(2004?)で人数での重みづけについて言及されていましたっけ。

2011-03-15 10:41:37
kazutan @kazutan

@simizu706 @gsd9720 @Manyaces その通りで、人数の不均衡を是正するための重み付けです。それらの書籍が手元にないので具体は示せませんが・・・

2011-03-15 10:42:52
藤島喜嗣 Yoshitsugu Fujishima @gsd9720

@simizu706 @kazutan @Manyaces 性別だと、-1,+1で相対化した方がいいですよね。0に積極的意味もあるだろうし。Jaccard & Turrisi(2003)では性別にダミーを当ててました。男性が0になっていて、伝統的性役割観を垣間見てしまいましたよw

2011-03-15 10:41:54
Hiroshi Shimizu @simizu706

@gsd9720 @kazutan @Manyaces TL速い・・・。個人的な意見では、-1と+1では回帰係数の意味が2倍になってしまうので、-0.5と+0.5にしたほうがいいように思います。たしかに、ダミーの作り方は無意識な信念を反映するかもしれませんね(笑)。

2011-03-15 10:45:13
kazutan @kazutan

@gsd9720 @simizu706 @Manyaces (0,1)にする積極的な理由として、下位検定の容易さがありますね。これは手間が半分くらいになるのでは?

2011-03-15 10:44:54
Hiroshi Shimizu @simizu706

@kazutan @gsd9720 @Manyaces その利点は盲点でした。なるほど、それは確かにそうですね。

2011-03-15 10:46:04
Hiroshi Shimizu @simizu706

@kazutan @gsd9720 @Manyaces  ついでにHADでは、カテゴリカルの場合、平均を人数で重みづけた共分散行列を使っています。なので、主効果は分散分析と一致するはずです。

2011-03-15 10:47:46