第30回R勉強会@東京 #TokyoR
初心者セッションの資料をSlideshareにアップロードしました。http://t.co/HbAUk0ccLP #TokyoR
2013-04-20 16:13:00『Rってpackageが多くて便利だよね~』 …便利でしょうか?Package依存症はときに思考を止める。 やりたい処理が具体的なら自作することも大切。車輪の再発明は決して無駄じゃない。血となり肉となる、って思うよ。#tokyor
2013-04-20 16:13:29分散分析を使うとき、データはいくつかの仮定(分散の均一性とか)を満たす必要があるのだけど、「Rによるやさしい統計学」ではあまりその辺に触れてないかなと思いました。 #TokyoR
2013-04-20 16:13:47データ解析のDBならRDBはPostgreがオススメ、理由はMySQLはWindow関数が使えない。PostgreはPL/RでRとの連携が可能。 #TokyoR
2013-04-20 16:18:05分散分析。事前条件の吟味って大切。自分のデータの性質を吟味せずに使うと、火傷しますよね。誤差分散の正規性や群間の分布の違いなど、使用する際の縛りは多いです。何か放り込めば結果は出る。でも、その妥当性は別の話。#tokyor
2013-04-20 16:19:04基本データ解析するときはWindow関数がミソ、これがないので、MySQLは単なるRank関数の実装でも副問い合わせを使用しないといけない。 #TokyoR
2013-04-20 16:21:31サーバが高負荷の原因を調べていたら ORDER BY RAND() を使っている SQL が連発されていることがありましたね #TokyoR
2013-04-20 16:21:32MySQLとPostgresSQLはスピードの議論が長年行われてました。でも、近年のPCスペックはスピードを吸収しつつあり、どちらも遜色ない気がします。ユーザー数やネット上の情報量を考えるとPostgresSQLも良いと思います。#tokyor
2013-04-20 16:22:18MySQL にも DWH 用途のエンジンありますよ。 infinidb とか InfoBright とか。 #TokyoR
2013-04-20 16:24:45何のために統計学があるかって考えてみると、一つは適切な推測のためでしょう。全データを調べられれば問題ないですが、大概(時間的、金銭的)コストが大きすぎて現実的ではないわけです。だからこそサンプリングして得られたデータから信頼区間のようなものを作って、大体この程度とするわけです。
2013-04-20 16:28:32一様分布といえば通常は min も max も存在するけど,実用では min と max の一方または両方がが存在しない場合も扱いたい。
2013-04-20 16:36:17