R勉強会 第2回

勉強会後、異常に復讐している素晴らしい方々のつぶやきを、自分が流用するためにまとめました。じっくり調べてblog書こう!と思っていたのに、短時間でここまでやってしまう方々って・・・・・・・・・・・・・。
6
小池利和 @koike0125

ああ、そういう意味ね。了解です。 @MakotoNonakaJP: @koike0125 外れ値候補として判定する基準が3σよりも厳しい、という意味です。1.5*IQRでは外れ値候補になるものでも、3σ基準では外れ値になりませんよね?

2011-11-19 23:02:20
小池利和 @koike0125

英語ムリ・・・ @MakotoNonakaJP 統計ツールによっては、5%未満と95%以上を外れ値候補とするそうです。これだと、一定の比率で外れ値になってしまう。Tukeyの方法はそうじゃない、っていうコメントを書いている人もいますね。http://t.co/F0PcJA7q

2011-11-19 23:04:07
野中 誠 @MakotoNonaka

@koike0125 せめて、R で help(plot) とか help(cor) とかやって出てくるものはチャレンジしてくださーい(^_^)

2011-11-19 23:06:08
Masaki Kase @softest

セ・リーグ打撃成績(試合数とHR数)を散布図にしてみた。面白くなーい。 http://t.co/w3Ary8RB

2011-11-19 23:11:11
拡大
野中 誠 @MakotoNonaka

@softest 私が授業で使っているのは「国内情報サービス企業で従業員が2,000人以上いる企業の、売上高と従業員数の散布図」です。○TTデータさん、売上高について見事な外れ値っぷりです。従業員数では外れ値とはいえないのに。。。

2011-11-19 23:19:41
Masaki Kase @softest

HRと三振はやや正の相関があるのかな?r=0.5676 http://t.co/uMncdclN

2011-11-19 23:22:06
拡大
小池利和 @koike0125

1.348って数字に覚えが有ったので調べたら、全く同様の計算をしたことが有りました。Excelだと NORMSINV(0.75) +NORMSINV(0.75)*2*1.5 符号逆ですが -0.674 - 1.5 * 1.348=2.7σ@MakotoNonakaJP

2011-11-19 23:22:39
Masaki Kase @softest

三振と四球は意外にも正の相関。外れ値もありそう。r=0.4027 http://t.co/EuABDrld

2011-11-19 23:24:08
拡大
Masaki Kase @softest

@MakotoNonakaJP みてみたいですね~。うちは千人以下なので対象外^^;

2011-11-19 23:28:48
小池利和 @koike0125

お兄さん、アンタも好きね(古過ぎー) これはまさに打席数という要因が背後に隠れているのでは。 @softest: 三振と四球は意外にも正の相関。外れ値もありそう。r=0.4027 http://t.co/hCHEFZvc

2011-11-19 23:28:49
拡大
野中 誠 @MakotoNonaka

@softest こんな感じです。データの出典は2005年の『コンピュートピア』 > おかげさまで、TweetDeck で画像アップする方法が分かりました\(^O^)/ http://t.co/CwQRWdJt

2011-11-19 23:33:29
Masaki Kase @softest

@koike0125 打席数はまだ集計してませんが、試合数で。 http://t.co/J9Bj5Utn

2011-11-19 23:34:06
拡大
小池利和 @koike0125

@softest データ変動の要因として、やはり一番影響力が有るのはスケールファクターなのですよ。これは主成分分析というのをやると良く分ります。なので、世の中の大抵の指標というのは、スケールファクターで割ることで正規化をするのです。先ほどの例は打席数で割って散布図描くと良し

2011-11-19 23:34:49
野中 誠 @MakotoNonaka

はっ! いつの間にか R commander を使って散布図を描いていた…。小池マジック恐るべし。

2011-11-19 23:37:27
小池利和 @koike0125

Saturday Night R commander!イェーイ!! @MakotoNonakaJP: はっ! いつの間にか R commander を使って散布図を描いていた…。小池マジック恐るべし。

2011-11-19 23:41:31
SUZUKI, Shogo @rin2_

うーん。学生時代に統計の勉強、きちんとしておけばよかったかもなぁ(苦笑

2011-11-19 23:42:11
Masaki Kase @softest

@MakotoNonakaJP 笑)右上にボッチがいますね~。

2011-11-19 23:42:18
Masaki Kase @softest

@koike0125 三振数/打席数、四球/打席数 で散布図作成。 http://t.co/eDR1ei7w

2011-11-19 23:44:07
拡大
野中 誠 @MakotoNonaka

@softest さりげなーく右下にも「ん?」ってのが… (´・ω・`)

2011-11-19 23:44:08
野中 誠 @MakotoNonaka

@Unity1004 あー、ゴメンナサイ、「おまえたち、散布図は作ったの? 外れ値は考えたの!? 対数変換はどーしたの!!」ってシーンが浮かびました…。

2011-11-19 23:45:54
Masaki Kase @softest

@MakotoNonakaJP 右下のデータ(薄利?)は、例の1.5倍の見つけ方には当てはまらないですね。

2011-11-19 23:45:55
野中 誠 @MakotoNonaka

@softest ですね。「箱ひげ図を使って…」は、「右上を外したら曲線っぽいかも?」というご質問に反応して回答しました。集団から外れているものは、まずは「目で見て考えましょう」ですね。厄介なのは集団に紛れ込んでいる変なヤツ。もっとも、これは散布図にする前にはじくべきデータです。

2011-11-19 23:49:32
あきやま🐯 @akiyama924

散布図を描いて外れ値があると、それが気になって、その原因ばかりを探しに行ってしまうー。

2011-11-20 00:02:57
あきやま🐯 @akiyama924

大学の卒論が、偉い先生が誤差の範囲として片付けた曲線のゆがみを「それは、誤差じゃなくってトンネル効果のせいだ」って証明する実験だったからなー。

2011-11-20 00:05:22
Masaki Kase @softest

@akiyama924 秋山さんにとっては当たり値というわけですね>外れ値

2011-11-20 00:10:08