R勉強会 第2回

勉強会後、異常に復讐している素晴らしい方々のつぶやきを、自分が流用するためにまとめました。じっくり調べてblog書こう!と思っていたのに、短時間でここまでやってしまう方々って・・・・・・・・・・・・・。
6
Masaki Kase @softest

他にも degrees of freedom や F-statistic というのも表示されますが、僕は不勉強で名前しか知らないかも。。。

2011-11-19 20:48:29
小池利和 @koike0125

私は英語が苦手なので、違っているかもしれませんが、degrees of freedomは自由度。F-statisticはF値 @softest: 他にも degrees of freedom や F-statistic というのも表示されますが、僕は不勉強で名前しか知らないかも

2011-11-19 20:56:32
小池利和 @koike0125

@softest 自由度は統計を学ぶ上で難関の1つです。私も十分には理解しきれていないかも。F値はF検定というのをやる時に使う統計量で、分散比とも言います。今回は、回帰式で説明出来るデータ変動の分散と誤差変動の分散の比を調べる、という目的で使います。

2011-11-19 21:04:24
Masaki Kase @softest

以上が今日の勉強会のツイートです。開始直後、R の操作がうまくできずに落ちこぼれそうになりましたが、小池さんが丁寧に教えてくれてとても助かりました。次回は、確率だそうです。ベン図やコインやさいころ、赤い玉と白い球とかが出てくることでしょう。

2011-11-19 20:50:45
Masaki Kase @softest

つぶやき忘れ。相関がありそうに見える疑似相関、相関関係と見間違える因果関係、あたりが注意事項です。風がふけば桶屋がもうかる。雨の日はRが落ちやすい。これらは相関とか因果があるのだろうか?

2011-11-19 20:58:10
Masaki Kase @softest

@koike0125 @mayonezudaiou 僕の手元にある書籍では異常値(外れ値とほぼ同じ)との記載が! ※度数分布表の話ですが

2011-11-19 21:05:33
小池利和 @koike0125

文献によって微妙に違う可能性も有りますが、四分位範囲の1.5倍を超えると外れ値、更に3倍を越えると異常値とするものが有ります。 @softest: @koike0125 @mayonezudaiou 僕の手元にある書籍では異常値(外れ値とほぼ同じ)との記載が!

2011-11-19 21:12:34
Masaki Kase @softest

Check out this SlideShare presentation : TokyoWebmining統計学部 第1回 http://t.co/yfs9VS7T

2011-11-19 21:12:36
小池利和 @koike0125

でも、この理論的な根拠が良く分らないし、解説したものも読んだことが無いのです。今度野中先生に教えてもらおう。 @softest @koike0125: 文献によって微妙に違う可能性も有りますが、四分位範囲の1.5倍を超えると外れ値、更に3倍を越えると異常値とするものが有ります。

2011-11-19 21:14:12
小池利和 @koike0125

「Rによるテキストマイニング入門」って本を買ったきり読む機会を逸していたのよ。メト勉終わったら一緒にやってみるか! @MasaoApril: 必要なのは、 "データマイニング理論+ソフトウェアメトリクス+構文解析+テスト分析/設計/実装/実行+みんなとの議論+みんなの取り組み"

2011-11-19 21:48:29
やまだ @yamaken1979

@softest @koike0125 「()」を使えば、うまく条件式で操作できそうです。部分集合の表現に 例えば、「(x<7 & y>4.0) | (x>=7 & y<7.1)」 としたり RT @softest: R comannder で散布図を作成→外れ値を除外、というの

2011-11-19 22:07:31
小池利和 @koike0125

そうでしたか。基本的なことで対応可能だったのですねー @yamaken1979: @softest @koike0125 「()」を使えば、うまく条件式で操作できそうです。部分集合の表現に 例えば、「(x<7 & y>4.0) | (x>=7 & y<7.1)」 としたり

2011-11-19 22:13:55
野中 誠 @MakotoNonaka

@softest あ、ちょっと誤解があったかもしれません。回帰分析に入るときに対数変換を用いるという話でして、外れ値を除外するために対数変換するわけではないです。説明不足でスミマセン。。。

2011-11-19 22:19:19
野中 誠 @MakotoNonaka

@softest yハットは、目的変数ではなく予測値ですね。変数と値、厳密に区別しています。

2011-11-19 22:21:57
Masaki Kase @softest

@MakotoNonakaJP 書き方が正確ではなかったですね。データを分析するときに、外れ値を外す方法をとったり、対数変換する方法をとったりします、という感じで理解していました。

2011-11-19 22:24:30
Masaki Kase @softest

@MakotoNonakaJP こちらは勘違いしていました>ハット。

2011-11-19 22:25:39
野中 誠 @MakotoNonaka

@koike0125 箱ひげ図は Tukey が "Exploratory Data Analysis" で著した方法だそうです。そこで、1.5倍を使ったのが始まりかと。。。原典にあたってない(研究者失格!)ので不正確かもしれません。

2011-11-19 22:30:25
小池利和 @koike0125

そう。1回真剣に調べたことが有ります。Tukeyさんが提唱しているところまでは分ったのですが、根拠についての解説が見当たらないのです。 @MakotoNonakaJP: @koike0125 箱ひげ図は Tukey が~

2011-11-19 22:34:16
野中 誠 @MakotoNonaka

@koike0125 ちょっと調べてみました。ざっくり言うと、±3σ よりもちょい厳しめの基準で、キリのいい数字を選んだんじゃないかと予想します。

2011-11-19 22:41:53
野中 誠 @MakotoNonaka

@koike0125 標準正規分布で、Pr(z ≦-0.674) = 0.25 なので、IQR = +0.674 - (-0.674) = 1.348 です。Pr(z ≦ -0.674 - 1.5 * 1.348) = 0.0035。3σ だと Pr = 0.00135 て感じ。

2011-11-19 22:46:54
やまだ @yamaken1979

@softest @koike0125 右辺と左辺に、x、yを使っても、条件式の設定できるみたいです。「y>(0.5*x)」とか、「y<(x+5)」とか、値が正しいかは確認してませんが、エラーはでず、データセットは絞られてるように見えます。

2011-11-19 22:51:49
野中 誠 @MakotoNonaka

@koike0125 統計ツールによっては、5%未満と95%以上を外れ値候補とするそうです。これだと、一定の比率で外れ値になってしまう。Tukeyの方法はそうじゃない、っていうコメントを書いている人もいますね。ここを起点に調べました。http://t.co/VsBvqNp1

2011-11-19 22:56:00
小池利和 @koike0125

-0.674 - 1.5 * 1.348=2.7σなんで、3σよりも緩いのでは? @MakotoNonakaJP: @koike0125 Pr(z ≦ -0.674 - 1.5 * 1.348) = 0.0035。

2011-11-19 22:59:42
野中 誠 @MakotoNonaka

@koike0125 外れ値候補として判定する基準が3σよりも厳しい、という意味です。1.5*IQRでは外れ値候補になるものでも、3σ基準では外れ値になりませんよね?

2011-11-19 23:01:11