2016年2月17日

こんなグラフがあって「XX時には野生型と変異体で差があります」を言いたいときに使う検定

何らかの指標の時系列が複数あるときに、ある時点で２群が違うかどうかを言いたいときにはどんな統計手法を使えば良いか？という質問に対するいろいろなコメントや提案。複数のストリングが混ざってて読みにくい部分や、関連性の低いツイートも混ざってますが、なんとなく全体の話の流れが追えればいいなと思いまとめました。これからも関連ツイート増えると思うので、追加や漏れに気づいた方ぜひ追加してください。

科学時系列統計

fronori
35405
1
54
11
7

19

前へ 1 2 3 4 次へ

Genki Kanda @Kd_Gn

@caripso @yh_taguchi このデータ実は6日分（144時間分）をそれぞれの日の1-24時の分をそれぞれ平均したもの（をさらにn=100 or 10で平均したもの）なのですが、24時間ではなく144時間として計算した方が良い...ということ...ですか...??

2016-02-16 21:23:04

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@Kd_Gn @caripso いやいや、そんだけあるんだったらむしろ、望みはあるでしょう。２４時間を６回サンプリングしたと思って統計とれるんだから。ただ、ADFで「６回繰り返した」という情報をどういれるのか僕にはわからないです。

2016-02-16 21:28:39

Endo, Takaho @caripso

@Kd_Gn @Yh_Taguchi モデルと実験系が分からないので何とも言えませんが時間依存性を見るなら平均化する前の方が良いと思います

2016-02-16 21:29:33

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@caripso @Kd_Gn 僕もそう思います。

2016-02-16 21:30:12

Genki Kanda @Kd_Gn

@caripso @yh_taguchi ありがとうございます。勉強になります。ちなみに実験系は「ある処置したマウスは野生型に比べて行動量が増える気がする。特に特定の時間帯に。6日間1時間ビンで行動量を調べてみよう」でした。 pic.twitter.com/remYQGmzQP

2016-02-16 21:37:01

拡大

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@Kd_Gn @caripso こんだけきれいなデータなら６回を独立した解析だと思えば十分、検定できると思います。簡便にはx(t)+\deltaで帰無仮説が棄却できない時間帯を探せばいいし、本式にはADFとかいうのを使えばいいでしょう。頑張ってください。

2016-02-16 21:42:26

Genki Kanda @Kd_Gn

@yh_taguchi @caripso 実際のデータはもっと汚い（はず）ですがこんな感じではあるので色々いじってみます！

2016-02-16 21:44:09

Genki Kanda @Kd_Gn

@marimiya_clc エラーバーついていませんでしたが赤がn=10、青がn=100で実験した（つもりの）例でした。 pic.twitter.com/aq7OaX3A5S

2016-02-16 21:44:53

拡大

Genki Kanda @Kd_Gn

時系列データは色々やりようがあるのがわかった。勉強しないといけない。

2016-02-16 21:46:21

田口善弘＠発言は私の個人としての見解であり中央大学やその機関の意見を代表するものではありません @Yh_Taguchi

@Kd_Gn @caripso QBiCにいるなら周囲に詳しい人が絶対いると思います。

2016-02-16 21:46:49

Genki Kanda @Kd_Gn

@yh_taguchi @caripso 僕もそう思います！← （Dry系ラボの建物とは歩いて30分離れているのでTwitterの方が近かったのでした...）

2016-02-16 21:48:48

松浦健太郎 @hankagosa

各時刻で野生型と変異体と同じ状態空間モデルに従うベースラインを持つとする。変異体はそれに加えて定数の項（または指数関数で落ちる項）を付け加えて、変化点検出込みでモデリング。推定後、定数の高さのベイズ信頼区間から判定、でよさそう。 twitter.com/Kd_Gn/status/6…

2016-02-16 22:03:52

Genki Kanda @Kd_Gn

@berobero11 コメントありがとうございます。Excelぽちぽちやるだけじゃ済まなそうな問題だったんだな、というのはわかりました... 勉強します。

2016-02-16 22:10:30

松浦健太郎 @hankagosa

@Kd_Gn 時系列データだといきなり問題が難しくなるので、世の中にある手法で検定できるのか謎です。ベイズモデリングでよろしければ、データもらえればやりますので困ったら連絡くださいませ。ただし、ブログに書いちゃうかもですが…。

2016-02-16 22:13:49

Genki Kanda @Kd_Gn

@berobero11 データが（論文として）Publishされた際にはぜひお伺いしてみたいです。時間生物学者の共通の悩みなのではないかなと思います...

2016-02-16 22:17:55

Genki Kanda @Kd_Gn

@Med_KU コメントありがとうございます。本気出してモデらなくても良いお手軽検定法がないかなと思ってましたがそうそう甘いものではないことが改めてわかりました...

2016-02-16 22:21:11

Genki Kanda @Kd_Gn

Practicalには単に違うって書くし、昼！夜！くらいで分けてざっくり検定してたりします。

2016-02-16 22:27:40

🤔🤔🤔🤔🤔🤔 @Med_KU

@Kd_Gn 時系列データの扱いは難しいですよ、はい

2016-02-16 22:31:20

kohske @kohske

モデル化できない時系列データに対して時刻ごとt検定で連続N時刻以上有意でOK みたいなやり方は見るし、眼球運動とかでやる。統計学的に本当に正しいのかどうかはよく分からないけど、直感的には問題ないはず。 twitter.com/kd_gn/status/6…

2016-02-16 22:37:44

kohske @kohske

SPMとかのクラスタサイズがいくつ以上ならOK的な発想と同じで、ボクセルでの３次元空間が一次元時系列になっただけのはず。SPMが正しいかと言われればよくわかんないけど。

2016-02-16 22:39:44

kohske @kohske

でもこのデータの場合、眼球運動とかに比べてもっと時間が飛び飛びなので、連続N点のカットオフはちょっと適用しづらいのかもしれない。独立じゃないけど、連続として扱いにくい、微妙なサンプリング周期の時、確かに悩ましいな。コンサバティブにやるなら各点t検定のボンフェローニか。

2016-02-16 22:43:13

kohske @kohske

昼夜分けてとかは、意図しないとしても double dipping になる可能性がありそうだから、気を付けたほうがよさそう。まあ時系列データとか空間でもそうだけど、特に独立性が微妙なデータを取るときは、配牌前に最終形を描いといたほうがいい、というのは間違いないと思う。

2016-02-16 22:49:49

松浦健太郎 @hankagosa

この時系列は一個まえの時刻の値と相関が強くて全く独立でないから、連続N時刻以上有意を主張してもよく分からない。せめて検定するなら全時刻データから一つの統計量を出すようにしないといけないと思うんだけど、これがかなり難しい…。

2016-02-16 22:59:00

松浦健太郎 @hankagosa

こういう案件は圧倒的に久保さん向きに思いますので、メンションで召喚いたします。@KuboBook twitter.com/kohske/status/…

2016-02-16 23:01:05

kohske @kohske

@berobero11 多分問題意識が微妙に違って、AとBのモデルとかパラメータが違うかどうかというより、どの時刻で差があるかということを知りたくて（実際そういう状況よくある）、ローカルな検定をrolling windowみたいにやっていくのは実践的にはありかも、といことです。

2016-02-16 23:04:35

前へ 1 2 3 4 次へ

いま話題のタグ

ゲゲゲの鬼太郎197 コミュニティノート118 出禁46 草津62 ワールドトリガー866 AIイラスト259 新人159 初見感想からしか取れない栄養素がある25 あすけん8 岸田文雄198 サーティワン31 らーめん再遊記6 水曜日のダウンタウン123 対魔忍38 ねこ2433