payashimの「物体認識の今後の発展案」についての議論

_akisatoさんのつぶやきに私payashimがメンションを飛ばしたところから始まった、「2次元画像ベースの物体認識が現状突き当たっている困難さを解決するために有用と憶測している2.5次元物体認識モデル」というアイデアに関する議論。
5
Taka29 Hirayama @hi_ratch

@payashim アイデアは人間からいただいて、コンピュータの得意な形に、ですかね。まとめお願いします! @_akisato @yonetaniryo

2011-07-16 14:35:34
お好み焼き @jellied_unagi

@payashim はい!今後ともよろしくお願いします:)

2011-07-16 14:31:45
Akisato Kimura @_akisato

ありがとうございます!助かります @yonetaniryo @hi_ratch RT @payashim: 今の話を、あとでToggeterにまとめます

2011-07-16 14:31:15
Masaki Hayashi @payashim

出先なのでおそらく夜帰ってから。

2011-07-16 14:30:16
Masaki Hayashi @payashim

今の話を、あとでToggeterにまとめます

2011-07-16 14:29:56
Masaki Hayashi @payashim

@yonetaniryo こちらこそお会いできるのを楽しみにしてます!おもしろいディスカッションテーマあればいつでもメンションとばしてくださいね

2011-07-16 14:29:26
Masaki Hayashi @payashim

@hi_ratch はい。私も前職計測会社なので、センシングとしての画像処理の本質に迫るように気をつけています。センサーとしての入力画像が最大限に活きる計算方法がベストということですよね。

2011-07-16 14:27:29
Taka29 Hirayama @hi_ratch

@payashim 「Computer」Visionの方が優れていることもありますから。

2011-07-16 14:25:01
お好み焼き @jellied_unagi

@payashim なるほどそうですね.目的に十分なモデルを作るのが大事,ということですかね.ためになります.Japan CV day も楽しみにしてますのでよろしくお願いします!ぜひ色々お話きかせてください!

2011-07-16 14:21:06
Masaki Hayashi @payashim

@hi_ratch ご助言ありがとうございます!私も脳科学はまだまだ脳の仕組みの憶測の域を出てないと思っていて、ビジョンによる認識は脳の本当の仕組み(なんてものはまだ解明されてないので)に合致すべきとは考えていないクチです。

2011-07-16 14:13:41
お好み焼き @jellied_unagi

@hi_ratch @payashim @_akisato 時と場合によっては,入出力のみにこだわって,内部(人間の知覚・認知とどれだけ整合がとれているか)は必ずしも重要ではないこともある,というのはここ最近で僕が学んだことの一つです.

2011-07-16 14:13:20
Taka29 Hirayama @hi_ratch

@payashim 白熱してますね。いいアイデアですね。ただ、人間の知覚、認知の仕組みがそうかというと...。人間にはあまりこだわらなくていいかもしれません。 @_akisatoさんの仰る超多クラス認識問題への打開策はそこにあると思いますが。

2011-07-16 14:10:29
Masaki Hayashi @payashim

@yonetaniryo はい。たとえばPictorial Struturesという2Dハリボテモデルが象徴してるように「認識目的」なら2Dでのバリエーションで十分な認識モデルになると思います。そこから3D幾何をきちんと推定したいなら話は別なんでしょうけどね。@_akisato

2011-07-16 14:08:01
お好み焼き @jellied_unagi

@payashim @_akisato なるほど,ありがとうございます.Marrの話など読んでると,やっぱり最後は物体中心表象で画像認識するのかな,という気もするのですが,現実的には観察者中心(2.5D)でとめてモデルを作る,という考え方もあるのですね.

2011-07-16 14:04:22
Masaki Hayashi @payashim

@_akisato あっています。しかも三次元空間ではなく二次元で、アバウトに三次元変動に対処していくイメージです。照明変化に対処するのはめんどくさそうなので2次元形状のみで生成モデル化できるとよいのかもしれないというのが個人的なアイデアですね。

2011-07-16 14:00:47
Masaki Hayashi @payashim

@yonetaniryo なので、理想としては三次元形状や三次元アピアランスが(次元削減した)固有空間においてパラメタライズされるのが理想なんですが、なんというか私はハリボテ(それこそ2.5次元?)として幾何と照明の変動が生成できるモデルがいい気がしてます。

2011-07-16 13:58:08
Masaki Hayashi @payashim

@yonetaniryo 実現手段はさておき、人間はある物体の認識に際して、予め記憶してある2Dのハリボテのテンプレを、二次元の中で擬似的に三次元的な幾何変形と照明変動をシミュレートして認知してるわけで、そのまま素直にこの仕組みを適用するのがスマートかなと。 @_akisato

2011-07-16 13:55:48
Akisato Kimura @_akisato

@yonetaniryo もう少し光学的・物理的にきちんと3次元情報を確保して,それを認識等に利用しましょう,という感じじゃないかと思っています…が,あってますか? > @payashim さん

2011-07-16 13:53:24
Akisato Kimura @_akisato

@payashim クラス内での各種(特に光学的・物理的な)変動は特徴なり生成モデルなりで回避できると思いますし,それもおそらくいずれは不可避な問題になると思っています.その一方で,1画面中にいくつ対象が存在するかわからない状況の超多クラス認識問題は,まだまだ先が遠そうに思えます

2011-07-16 13:51:19
お好み焼き @jellied_unagi

@payashim @_akisato 非常に興味深いお話ですね.基本的にはパラメトリック固有空間法的な話になるのですか?あと観察確度に依存しない物体認識という枠組みでは,筑波大の森田先生もそういうことをされていたのを見たことがあります.

2011-07-16 13:48:42
Masaki Hayashi @payashim

@_akisato 三次元からの投影で見るようになれば、1クラスごとの姿勢や形状のバリエーションには学習時ではなく実際の認識時に生成モデル的に対処するはずで、クラス数爆発はしないと憶測しています。

2011-07-16 13:25:26
Akisato Kimura @_akisato

@payashim というのも,クラス数とその組み合わせの爆発という問題については,個人的にまだまったく先が見えていません.標準ベンチマークで「遊んでいる」うちは顕在しないですが,その部分は程なく向き合わざるを得なくなると思っています.

2011-07-16 13:13:33
Akisato Kimura @_akisato

@payashim ICRA2011 Best Paperも確かそんな感じの話でしたね.私自身は,3次元から2次元に戻ってくるのは時間の問題だと思いますし,有望だと思います.とは言え,それだけでは決定的な突破口が見えないように思えるのも一方で感じています.

2011-07-16 13:10:57
Masaki Hayashi @payashim

@_akisato (二次元)画像には対象物体の三次元幾何のバリエーションが透視投影されてるわけで、二次元的な統計を学習しても本質的解決にはなりません。なので、今後(三次元)距離画像での物体認識が発展してそのフィードバックが二次元にきた時に突破口が見つかると思います。

2011-07-16 13:06:28
Akisato Kimura @_akisato

@payashim 私自身も認知的にはその可能性が非常に高いと思っています.一方で,クラスごとに検出モデルを立てて識別学習を行うというアプローチがどこまでスケーラブルなのかがよくわからず,そのあたりの割り切りでもう2年以上苦しんでいます…

2011-07-16 12:56:05