R勉強会 第2回
他にも degrees of freedom や F-statistic というのも表示されますが、僕は不勉強で名前しか知らないかも。。。
2011-11-19 20:48:29私は英語が苦手なので、違っているかもしれませんが、degrees of freedomは自由度。F-statisticはF値 @softest: 他にも degrees of freedom や F-statistic というのも表示されますが、僕は不勉強で名前しか知らないかも
2011-11-19 20:56:32@softest 自由度は統計を学ぶ上で難関の1つです。私も十分には理解しきれていないかも。F値はF検定というのをやる時に使う統計量で、分散比とも言います。今回は、回帰式で説明出来るデータ変動の分散と誤差変動の分散の比を調べる、という目的で使います。
2011-11-19 21:04:24以上が今日の勉強会のツイートです。開始直後、R の操作がうまくできずに落ちこぼれそうになりましたが、小池さんが丁寧に教えてくれてとても助かりました。次回は、確率だそうです。ベン図やコインやさいころ、赤い玉と白い球とかが出てくることでしょう。
2011-11-19 20:50:45つぶやき忘れ。相関がありそうに見える疑似相関、相関関係と見間違える因果関係、あたりが注意事項です。風がふけば桶屋がもうかる。雨の日はRが落ちやすい。これらは相関とか因果があるのだろうか?
2011-11-19 20:58:10@koike0125 @mayonezudaiou 僕の手元にある書籍では異常値(外れ値とほぼ同じ)との記載が! ※度数分布表の話ですが
2011-11-19 21:05:33文献によって微妙に違う可能性も有りますが、四分位範囲の1.5倍を超えると外れ値、更に3倍を越えると異常値とするものが有ります。 @softest: @koike0125 @mayonezudaiou 僕の手元にある書籍では異常値(外れ値とほぼ同じ)との記載が!
2011-11-19 21:12:34Check out this SlideShare presentation : TokyoWebmining統計学部 第1回 http://t.co/yfs9VS7T
2011-11-19 21:12:36でも、この理論的な根拠が良く分らないし、解説したものも読んだことが無いのです。今度野中先生に教えてもらおう。 @softest @koike0125: 文献によって微妙に違う可能性も有りますが、四分位範囲の1.5倍を超えると外れ値、更に3倍を越えると異常値とするものが有ります。
2011-11-19 21:14:12「Rによるテキストマイニング入門」って本を買ったきり読む機会を逸していたのよ。メト勉終わったら一緒にやってみるか! @MasaoApril: 必要なのは、 "データマイニング理論+ソフトウェアメトリクス+構文解析+テスト分析/設計/実装/実行+みんなとの議論+みんなの取り組み"
2011-11-19 21:48:29@softest @koike0125 「()」を使えば、うまく条件式で操作できそうです。部分集合の表現に 例えば、「(x<7 & y>4.0) | (x>=7 & y<7.1)」 としたり RT @softest: R comannder で散布図を作成→外れ値を除外、というの
2011-11-19 22:07:31そうでしたか。基本的なことで対応可能だったのですねー @yamaken1979: @softest @koike0125 「()」を使えば、うまく条件式で操作できそうです。部分集合の表現に 例えば、「(x<7 & y>4.0) | (x>=7 & y<7.1)」 としたり
2011-11-19 22:13:55@softest あ、ちょっと誤解があったかもしれません。回帰分析に入るときに対数変換を用いるという話でして、外れ値を除外するために対数変換するわけではないです。説明不足でスミマセン。。。
2011-11-19 22:19:19@MakotoNonakaJP 書き方が正確ではなかったですね。データを分析するときに、外れ値を外す方法をとったり、対数変換する方法をとったりします、という感じで理解していました。
2011-11-19 22:24:30@koike0125 箱ひげ図は Tukey が "Exploratory Data Analysis" で著した方法だそうです。そこで、1.5倍を使ったのが始まりかと。。。原典にあたってない(研究者失格!)ので不正確かもしれません。
2011-11-19 22:30:25そう。1回真剣に調べたことが有ります。Tukeyさんが提唱しているところまでは分ったのですが、根拠についての解説が見当たらないのです。 @MakotoNonakaJP: @koike0125 箱ひげ図は Tukey が~
2011-11-19 22:34:16@koike0125 ちょっと調べてみました。ざっくり言うと、±3σ よりもちょい厳しめの基準で、キリのいい数字を選んだんじゃないかと予想します。
2011-11-19 22:41:53@koike0125 標準正規分布で、Pr(z ≦-0.674) = 0.25 なので、IQR = +0.674 - (-0.674) = 1.348 です。Pr(z ≦ -0.674 - 1.5 * 1.348) = 0.0035。3σ だと Pr = 0.00135 て感じ。
2011-11-19 22:46:54@softest @koike0125 右辺と左辺に、x、yを使っても、条件式の設定できるみたいです。「y>(0.5*x)」とか、「y<(x+5)」とか、値が正しいかは確認してませんが、エラーはでず、データセットは絞られてるように見えます。
2011-11-19 22:51:49@koike0125 統計ツールによっては、5%未満と95%以上を外れ値候補とするそうです。これだと、一定の比率で外れ値になってしまう。Tukeyの方法はそうじゃない、っていうコメントを書いている人もいますね。ここを起点に調べました。http://t.co/VsBvqNp1
2011-11-19 22:56:00-0.674 - 1.5 * 1.348=2.7σなんで、3σよりも緩いのでは? @MakotoNonakaJP: @koike0125 Pr(z ≦ -0.674 - 1.5 * 1.348) = 0.0035。
2011-11-19 22:59:42@koike0125 外れ値候補として判定する基準が3σよりも厳しい、という意味です。1.5*IQRでは外れ値候補になるものでも、3σ基準では外れ値になりませんよね?
2011-11-19 23:01:11