相関係数の大小は相関の有無とは全く関係ない件について。

話題になった日経のトンデモグラフに対する突っ込みで、相関係数には言及してもp値、有意水準についての言及は少なく、勘違いしている人が多いのではないか?と感じたのでブラッシュアップも兼ねてまとめました。
統計学 相関 相関係数
shi_taken 57232view 17コメント
122
ログインして広告を非表示にする
  • 発端となったのはこのツイート
  • Kotosaka (琴坂将広) @kotosaka 2014-10-29 14:28:35
    悪いことは言わない。この分析をした人、私が良い事(分析の基本)を教えてあげるので、大人しく出て来て下さい。いや、ほんとお願いです(哀)→ 出典 2014年10月29日日経新聞朝刊総合1「地方創生「東京集中是正論」の裏側 pic.twitter.com/yXUuybF787
  • しーたけ @shi_taken 2014-10-30 00:27:12
    相関係数と有意水準の記載のない相関に意味などないのだよ。
  • それに対するTwitterでの反響
  • しーたけ @shi_taken 2014-11-01 07:27:02
    勢いと雰囲気で押し切るトンデモグラフを堂々と掲載してきた日経新聞 - Togetterまとめ togetter.com/li/738694 このまとめを見て驚くのは「相関係数が大きければ相関があり、小さければない」という勘違いの多さ。相関係数の大小と相関の有無は全く関係がない。
  • 相関係数の意味と、相関の有無を判定する方法について
  • しーたけ @shi_taken 2014-11-01 07:29:06
    相関係数が示すのは、xとyが相関しているという前提の下、yの値を決定するのにxがどれだけ寄与しているかという「寄与率」。x以外にもyに影響する因子があれば小さく、なければ大きくなるというだけの話。さらに言えば、相関しているという前提が間違っていたら話にならない。
  • しーたけ @shi_taken 2014-11-01 07:30:37
    例えばプロットが2つしかなければ、相関の有無に関わらず相関係数は必ず1か-1になるが、これを相関があるという人はいない。(相関がないということではなく、データ数が小さすぎて相関の有無を判定できないということ。)
  • プロットが2つしかなければ、当然こうなります。

  • しーたけ @shi_taken 2014-11-01 07:31:53
    相関の有無を判定するのに使われるのは、相関係数rとプロット数nによって決定される"p値"で、相関があるという前提が正しくない確率を示す。正確には、「全く相関していないxとyをアトランダムにn個プロットしたグラフの相関係数を算出したとき、それがrになる確率」を示す。
  • しーたけ @shi_taken 2014-11-01 07:33:16
    一般的にはp<0.05のとき「(有意水準5%で)有意な相関がある」という。先述したプロット数が2つの場合では、相関係数は1と高くなるが、p=1となるためこれは有意な相関ではない。
  • しーたけ @shi_taken 2014-11-01 07:34:24
    逆に相関係数が小さくてもプロット数が十分に多ければp<0.05になることはある。この場合、xとyの間には有意な相関があるが、寄与率は小さく、x以外の因子がより強くyに影響しているという意味になる。
  • しーたけ @shi_taken 2014-11-01 07:35:25
    p値の考え方について例えてみる。全くイカサマのないコインを投げて6回連続で同じ面が出る確率は3.1%で、5%より小さい。したがって、ある人がコインを投げて6回連続で同じ面が出た時には、「これはイカサマではないか?」という疑いが妥当性を持つと考える。この3.1%に相当するのがp値。
  • しーたけ @shi_taken 2014-11-01 07:36:19
    相関係数至上主義というか、p値が軽視されがちなのは、おそらくExcelでは相関係数は簡単に出せるがp値を出すのには手間がかかるせいだと思う。統計解析にはExcelではなくRやSPSSなどのちゃんとした統計ソフトを使ってほしい。
  • おまけ。パラメトリック手法とノンパラメトリック手法について
  • しーたけ @shi_taken 2014-11-01 07:37:34
    また、相関解析にはパラメトリック手法とノンパラメトリック手法の2通りがあることにも注意されたい。Excelで算出されるpearsonの相関係数は前者だが、環境科学や社会科学ではほとんどの場合後者の方が適切。
  • しーたけ @shi_taken 2014-11-01 07:38:29
    パラメトリック手法はデータが正規分布やt分布など特定の分布に従うことを前提としている。そのため、こういった分布に従わないデータでは外れ値に引っぱられて不正確な値が出やすい。
  • しーたけ @shi_taken 2014-11-01 07:39:57
    ノンパラメトリック手法は分布のしかたに関わらず使うことができ、外れ値に強い。一方で有意であると判定する(p<0.05になる)のに必要なデータ数がパラメトリック手法と比較して多くなるという短所もある。
  • しーたけ @shi_taken 2014-11-01 07:41:39
    環境中における物質の動態や、社会における人の行動などは、影響する因子があまりに多く複雑であるため、ほとんどの場合特定の分布に従わない。したがってノンパラメトリック手法であるspearmanの順位相関係数が推奨される。
  • 実際に計算してみた
  • しーたけ @shi_taken 2014-11-01 07:47:52
    奥村先生のサイトに上げられた日経のグラフの元データを使って統計ソフトRで相関検定をしてみた。 oku.edu.mie-u.ac.jp/~okumura/stat/…
  • しーたけ @shi_taken 2014-11-01 07:48:28
    Pearsonの相関係数r=0.045 (p=0.47)となり、有意な相関はない。一方でSpearmanの順位相関係数r=-0.14 (p=0.025) となり、なんと有意な負の相関が認められた。
  • しーたけ @shi_taken 2014-11-01 07:53:42
    奥村先生のサイトに貼られた日経のものと同じグラフ(左図)、その横軸を対数目盛にしたグラフ(右図)を見比べてみる。 pic.twitter.com/rOQ4X3BTcg

コメント

  • しーたけ @shi_taken 2014-11-01 08:39:59
    まとめを更新しました。
  • mnianzinno @mnianzinno 2014-11-01 10:05:09
    EXCELもどうでもいいような機能追加によるバージョンアップでリボンとか迷走するくらいなら、こういうところを強化してくれたらいいのにねえ。まあSUMIFS,COUNTIFSは久しぶりのまともな機能向上でしたが
  • ハドロン @hadoron1203 2014-11-01 13:42:26
    まぁ仮に相関が強かったとしても、因果関係があるかどうかはまた別問題ですからねぇ。対数グラフで見ると、100人/平方kmあたりに外れ値のピークがありそうだけど、別のパラメータが必要な気がします。
  • Yu Yamaguchi @Yu_Yamaguchi_ 2014-11-01 16:47:36
    人口密度も出生率に寄与するパラメータの一つとは言えるだろう。そして人口密度が低い方が子供を作りやすいというのはいろんな仮説が思い付く。例えば家の面積が広いとか、保育園の土地が確保しやすいとか。そういう仮説でまた統計をとってみてはどうか。
  • 大石陽@聖マルク @stmark_309 2014-11-01 17:04:39
    統計というのは様々なパラメータから取ったものを比較したり分析したりするから意味があるんであって、「人口密度と出生率の対応」なんて単体で見せられたところでな……。例えば若い夫婦の割合が高ければ、人口に対しての出生率は高まると思うんだけど、年齢別の、世帯構成、年収、病院数なんかの統計も一緒に取るべきじゃないのか?
  • 鍵っ子きっし= @lr_ishy 2014-11-02 08:23:16
    統計って使いようだとつくづく思う。正しく使わないとただの凶器。
  • 瑞樹(写真は代理のドールちゃん) @mizuki_windlow 2014-11-02 09:20:24
    統計とかちゃんと出来ない組織が経済を語っちゃうって凄いことだよね……経済なんて統計の塊みたいな物だと思うんだけど……
  • しーたけ @shi_taken 2014-11-02 10:58:20
    まとめを更新しました。
  • Takashi @takurinta 2014-11-02 16:52:11
    相関を見るのにp値で判断するのは明らかにまずいです。どんなに低い相関でもnが十分に大きければp値はいくらでも小さくなるので。相関係数の大小こそが相関の大小に関係しています。そして、無相関の検定にほとんど意味はないです。
  • ひろ@しばらくオフライン @hiro_h 2014-11-04 11:24:50
    p値、n数が小さい場合に早見表を見るけど、相関係数でも変わるので、タイトルが適切かどうかはちょっと怖いw // 全体的には同意:-)
  • 高橋雅奇 @TakahashiMasaki 2014-11-04 11:42:25
    このまとめ主,「頭のいいバカ」(わしの造語)臭がする(正しくても難しすぎたら大衆は説得できんのやど
  • しーたけ @shi_taken 2014-11-04 17:56:44
    takurinta 「どんなに低い相関でもnが十分大きければp値はいくらでも小さくなる」「相関係数の大小が相関の大小に関係している」どちらも正しいです。しかしp値が有意水準を下回っていなければ算出された相関係数自体が意味をなさないので、日経のグラフへの反論としては「相関係数が小さい」よりも「pがこの値ではお話にならない」の方が科学的ではないか、ということを説明したかったのです。
  • しーたけ @shi_taken 2014-11-04 18:08:16
    hiro_h 「有意な相関の有無は相関係数の大小に関わらずp値が有意水準を下回っているかどうかで判定される」ということを意図したつもりでした。p値が相関係数に影響されるのはその通りですので、確かに適切なタイトルではなかったかもしれないですね。
  • ひろ@しばらくオフライン @hiro_h 2014-11-04 23:12:09
    shi_taken つ「タイトルは釣りです」ってまとめ冒頭に書いとくだけで済む気もしますw
  • しーたけ @shi_taken 2014-11-04 23:20:53
    hiro_h んー、釣りのつもりはなかったので、それだと後釣り宣言になってしまいますw 単なる自分の表現力不足なので、タイトルへの批判は甘んじて受けようと思います。
  • Takashi @takurinta 2014-11-04 23:35:10
    @shi_taken 最初のプロットについては見るからにそのまま相関係数を計算するのが論外なので、批判すべきはそこです。無相関検定のp値での議論は筋が悪いと思います。
  • しーたけ @shi_taken 2014-11-05 00:02:49
    .takurinta 「見るからに論外」というのには同意しますが、それは主観的な指標です。少なくともこの記事を書いた記者の主観ではそうではないですよね。主観で主観を否定することはできませんから、数字という誰にとっても明らかな客観的な指標で否定すべきです。

カテゴリーからまとめを探す

「写真」に関連するカテゴリー