ヤフー主催「Deep Learning Tokyo 2016」まとめ
深層学習の中でも、CNNによる画像解析からRNNとLSTMの組合せに連携することで、写真に何が写っているかを説明するキャプションを自動生成する事例の紹介です。以前話題になりましたね! #DLT2016 pic.twitter.com/3mLtFHlqPT
2016-03-20 13:46:21Video descriptionの話.キャプション生成ってencoderとdecoderで同じLSTMを使うのか? #DLT2016
2016-03-20 13:47:21同様にして、ビデオのような動画に対しても、どういう状況かを深層学習によって自動に説明する取り組みも進んでいます。 #DLT2016 pic.twitter.com/um4d6CM34E
2016-03-20 13:48:58画像に対してキャプションを自動生成する仕組みであるDeep Compositional Captionerでは画像から語彙を抽出し、言語モデルと組み合わせることキャプションを生成しているとのこと。 #DLT2016 pic.twitter.com/xepriWwGfR
2016-03-20 14:03:20Darrell先生の。画像認識を学習させたのと、テキストから言語モデルを学習させ、それらを組み合わせたうえで画像としては(または言語としては)未知の対象を転移学習で推定する。強化学習も使ってる 論文> arxiv.org/abs/1601.01705 #DLT2016
2016-03-20 14:03:25(続き)画像についての説明で、他の対象と何が違うのかの分類モデルを学習し、それをつかって画像を説明すると、対象がどのような特徴があるかを説明できる。 「この鳥は赤い尾を持っています」など #DLT2016
2016-03-20 14:07:58(続き)言語クエリから、画像のどの部分を言及しているのかを調べる手法の紹介 arxiv.org/abs/1511.04164 ビジョンから行動の学習、シミュレーションからの学習(アビールとの共同研究) arxiv.org/abs/1511.07111 #DLT2016
2016-03-20 14:12:29localなCNN特徴とglobalなCNN特徴をLSTMで繋いでSpatial Contextを学習.動画のような系列データではなくてもうまく学習できるのか. arxiv.org/abs/1511.04164 #DLT2016
2016-03-20 14:12:56Darrell教授が資料の中で説明されていたSpatial Context Recurrent ConvNet (SCRC) modelに言及した論文はこちら #DLT2016 arxiv.org/abs/1511.04164
2016-03-20 14:13:03画像のインプットからモーター制御 arxiv.org/abs/1504.00702 youtube.com/watch?v=Q4bMcU… #DLT2016
2016-03-20 14:13:40今話してるshelhamer氏はcaffeのメイン開発者でもあり、画像研究でも有名で、このfully conv segmentationが去年登場したことがきっかけで、セグメンテーションの精度と速度は100倍に精度は30ポイントもあがった #DLT2016
2016-03-20 14:18:57続いて、BVLCのチームからのリサーチトークとなります。Caffeを使って画像の中からオブジェクトとして意味のある部分を識別する取り組みの紹介です。 #DLT2016 pic.twitter.com/ejZsRTJoLH
2016-03-20 14:19:41Data dependent initializationの論文ってこの人だったのか. Darrell先生のラボって本当に幅広いテーマをやってるな. arxiv.org/abs/1511.06856 #DLT2016
2016-03-20 14:29:41元論文のabstractで"Convolutional Neural Networks spread through computer vision like a wildfire"ってあってめっちゃかっこいい #DLT2016
2016-03-20 14:31:46ただいま、Darrell教授のBVLCのメンバーの方が紹介している論文はこちらになります。#DLT2016 arxiv.org/abs/1511.06856
2016-03-20 14:35:57Jeffのtalk, 重みの初期化時に各レイヤーの出力を減衰や発散しないように、重みをスケールする。その際、重みの初期値として、入力のk-meansのクラススタリング結果を各フィルタの初期値として使うのが有効 arxiv.org/abs/1511.06856 #DLT2016
2016-03-20 14:37:37