R勉強会 第2回
ああ、そういう意味ね。了解です。 @MakotoNonakaJP: @koike0125 外れ値候補として判定する基準が3σよりも厳しい、という意味です。1.5*IQRでは外れ値候補になるものでも、3σ基準では外れ値になりませんよね?
2011-11-19 23:02:20英語ムリ・・・ @MakotoNonakaJP 統計ツールによっては、5%未満と95%以上を外れ値候補とするそうです。これだと、一定の比率で外れ値になってしまう。Tukeyの方法はそうじゃない、っていうコメントを書いている人もいますね。http://t.co/F0PcJA7q
2011-11-19 23:04:07@koike0125 せめて、R で help(plot) とか help(cor) とかやって出てくるものはチャレンジしてくださーい(^_^)
2011-11-19 23:06:08セ・リーグ打撃成績(試合数とHR数)を散布図にしてみた。面白くなーい。 http://t.co/w3Ary8RB
2011-11-19 23:11:11@softest 私が授業で使っているのは「国内情報サービス企業で従業員が2,000人以上いる企業の、売上高と従業員数の散布図」です。○TTデータさん、売上高について見事な外れ値っぷりです。従業員数では外れ値とはいえないのに。。。
2011-11-19 23:19:411.348って数字に覚えが有ったので調べたら、全く同様の計算をしたことが有りました。Excelだと NORMSINV(0.75) +NORMSINV(0.75)*2*1.5 符号逆ですが -0.674 - 1.5 * 1.348=2.7σ@MakotoNonakaJP
2011-11-19 23:22:39お兄さん、アンタも好きね(古過ぎー) これはまさに打席数という要因が背後に隠れているのでは。 @softest: 三振と四球は意外にも正の相関。外れ値もありそう。r=0.4027 http://t.co/hCHEFZvc
2011-11-19 23:28:49@softest こんな感じです。データの出典は2005年の『コンピュートピア』 > おかげさまで、TweetDeck で画像アップする方法が分かりました\(^O^)/ http://t.co/CwQRWdJt
2011-11-19 23:33:29@softest データ変動の要因として、やはり一番影響力が有るのはスケールファクターなのですよ。これは主成分分析というのをやると良く分ります。なので、世の中の大抵の指標というのは、スケールファクターで割ることで正規化をするのです。先ほどの例は打席数で割って散布図描くと良し
2011-11-19 23:34:49Saturday Night R commander!イェーイ!! @MakotoNonakaJP: はっ! いつの間にか R commander を使って散布図を描いていた…。小池マジック恐るべし。
2011-11-19 23:41:31@Unity1004 あー、ゴメンナサイ、「おまえたち、散布図は作ったの? 外れ値は考えたの!? 対数変換はどーしたの!!」ってシーンが浮かびました…。
2011-11-19 23:45:54@softest ですね。「箱ひげ図を使って…」は、「右上を外したら曲線っぽいかも?」というご質問に反応して回答しました。集団から外れているものは、まずは「目で見て考えましょう」ですね。厄介なのは集団に紛れ込んでいる変なヤツ。もっとも、これは散布図にする前にはじくべきデータです。
2011-11-19 23:49:32大学の卒論が、偉い先生が誤差の範囲として片付けた曲線のゆがみを「それは、誤差じゃなくってトンネル効果のせいだ」って証明する実験だったからなー。
2011-11-20 00:05:22