一人称視点映像から動作系列を認識しつつ,行われなかった動作(missing actions)のうち重要そうなものを見つけて,(適切なタイミングで?)お知らせする #cvsaisentan
2016-02-06 13:16:471) ある時刻に認識された動作Ftと,次の時刻に認識された動作Ft+から,その間に出てくるはずだったmissing actionを推定(=N) 2) Ft+ とNに基づいてどれだけアラートすべきかのcostが決まる #cvsaisentan
2016-02-06 13:21:38実際に、コストと動作をどう定義するのか、と思ったけれど、帽子にカメラを付けるのか。 #cvsaisentan
2016-02-06 13:22:03動作の順序関係を記述するのは順序グラフ。なるほど。 #cvsaisentan
2016-02-06 13:22:21「第32回コンピュータビジョン勉強会@関東 ICCV読み会」にセキココしました! sekico.co/zaseki/647 #sekicoco
2016-02-06 13:22:49起こりうる動作セットの相互依存関係(遷移確率)を flexible ordered graphで定義.例ではラテを作っている際に起こりうる動作29種類を手動で?定義 #cvsaisentan
2016-02-06 13:24:02@kantocv 例示されたグラフだと、そもそも忘れた際にノードに戻れないのだが、実際のグラフはもう少し密のグラフのはず。 #cvsaisentan
2016-02-06 13:25:39それぞれの動作がグラフのノードになっている.ある動作と別の動作の間のコスト最小パスが計算できる.そのパスの中にある動作が,忘れられた動作 #cvsaisentan
2016-02-06 13:26:18「第32回コンピュータビジョン勉強会@関東 ICCV読み会」にセキココしました! sekico.co/zaseki/647 #sekicoco
2016-02-06 13:27:40@kantocv 動作の認識は、まずビデオを適当なLフレームずつにぶった切る。各識別は単純な線型SVMを使用。 #cvsaisentan
2016-02-06 13:27:48動作認識は sliding window + 線形識別.動作の開始,途中,終了はそれぞれ別クラスとして扱う #cvsaisentan
2016-02-06 13:27:51@kantocv きれいに始まり、終わり、が認識できるとは限らないので、HMMを使う。これで動作の始まり、終わりが識別できる。 #cvsaisentan
2016-02-06 13:28:58@kantocv たしかに、Lはキモになりそうだなぁ。 #cvsaisentan
2016-02-06 13:31:17sliding windowではなくて,時系列長Lのセグメントの(重複なしの)系列に分割しているのか… #cvsaisentan
2016-02-06 13:31:3920名のラテ作り一人称視点映像.23本はmissing actionなし,18本はmissing actionあり #cvsaisentan
2016-02-06 13:32:35@kantocv これは、なんとDeep Learning を使わない!Gist 画像特徴量! #cvsaisentan
2016-02-06 13:32:50特徴はGIST(people.csail.mit.edu/torralba/code/…).egocentric でGISTはあまり見たことないような… #cvsaisentan
2016-02-06 13:33:14終りと始まりと途中3クラスってわけるのは、特定の動作であるかないか(それがシーケンス中に連続して現れた初回が始まりで終端が終わり)ってするよりやっぱり良いのかな?(安定はしそう?) #cvsaisentan
2016-02-06 13:33:29