ACM ICMI 2021 日本語ツイート+αまとめ

ACM ICMI 2021 (23rd ACM International Conference on Multimodal Interaction) に関する日本語ツイートまとめ+αです.#icmi#icmi2021 などのハッシュタグや@AcmIcmi で調べると,英語ツイートが出てきますが,こちらは特にまとめていません. • ICMI 2021 https://icmi.acm.org/2021/ 続きを読む
1
Takahiro Miura @hariktriam

ACM ICMI 2021という国際学会のTraining sessionに先程まで参加.ここで使ってる遠隔会議ツールであるVirbelaのクオリティが凄い.3D環境なのに,すごく安定して動く.アバターは選択式.ディズニー映画とかに出てきそうな雰囲気のキャラのみという印象.

2021-10-14 23:24:41
Takahiro Miura @hariktriam

会話を前提とした作りが凄く良く出来ていて,マイクのON/OFFボタン以外に,1を押しっぱなしの時だけマイクがONになる機能も.アクセシビリティは要調査.たぶん英語限定だけど,チャットには日本語も入力可能な印象.

2021-10-14 23:25:47
Takahiro Miura @hariktriam

ただ,画面共有周りはいま一歩.カメラ画像と画面共有の同時表示が出来ない.どうしてもの場合は,OBSの仮想カメラ機能を使ってプレゼン+カメラとするか,CrankWheelという自分の共有用画面のリンクを生成して,ブラウザで見れる機能を使う.まぁ,用途的には十分という所か ardent.jp/rentoffice-con…

2021-10-14 23:37:43
Takahiro Miura @hariktriam

(プレゼンのビデオを事前提出したので,これ再生してくれるので十分なんだけどなぁ…と思ってたりして😅.

2021-10-14 23:38:04

Day 1 (2021/10/19)

Takahiro Miura @hariktriam

10/19(Tue) 21:00 JST頃から開催されるACM ICMI 2021に本日から参加します.本国際学会はマルチモーダルインタラクションを扱っています.今回は現地&オンラインのhybrid実施. icmi.acm.org/2021/index.php… 一応,23:30からのセッションにて,私達の発表もある予定です. doi.org/10.1145/346224…

2021-10-19 18:56:59
Takahiro Miura @hariktriam

学会自体はHybrid開催なんですが,どうも現地でのKeynoteの様子がVirbela上に表示されない模様….とりあえず,現地では何かが進んでいるっぽいぞ….

2021-10-19 21:09:50

Keynote (Russ Salakhutdinov)

Takahiro Miura @hariktriam

Keynote: Russ Salakhutdinov: From Differentiable Reasoning to Self-supervised Embodied Active Learning DNNは様々なインパクトを及ぼしたが,自然言語の理解・理由付けや身体性のあるAI,知識の構造化,マルチモーダルな半教師あり・自己教師あり学習はチャレンジ段階.

2021-10-19 21:21:15
Takahiro Miura @hariktriam

Never-ending learning Mitchell et al, 2015 cs.cmu.edu/~tom/pubs/NELL… 学習し続けるシステム.知識の源泉たるKnowledge baseの形成と,知識をAugmentするためのKnowledge graph構造を持つ.自然言語の係り受け関係とかでグラフ化を生成し続ける.

2021-10-19 21:24:51
Takahiro Miura @hariktriam

グラフは,LSTMから得るパラメタと畳み込みグラフネットワークからのパラメタとで構成される.グラフの伝搬と畳込み関係は,以下の論文で記述. arxiv.org/abs/1809.00782 このようなKnowledge baseとテキストを組み合わせたりすることで,質問への回答や映画の的中率が向上.

2021-10-19 21:28:14
Takahiro Miura @hariktriam

複雑な聴き方をする質問への応答.例としてWhere is the company which manufactured voglibose headquartered? で欲しい回答は,Chuo-ku, Tokyo.だが,そのためには,武田薬品がVogliboseの製造元であることを導きつつ,その本社の場所を回答する必要がある.

2021-10-19 21:30:54
Takahiro Miura @hariktriam

Relational followingという方法. arxiv.org/abs/2002.10640 複雑な質問構造を単純化したグラフ構造と,そこにおける回答すべき内容とのグラフを作る.これに応じてKnowledge base (KB)のテキストの構造を解析してスコア化して答えを導出.

2021-10-19 21:33:15
Takahiro Miura @hariktriam

関係性を記述した関数を展開→必要な回答部分をフィルタリング(この際,Transformer networkを用いつつ,Top-K Nearest Neighbor Searchで特徴量化し,Offline index付け)→元のモデル式に代入し直す. 効率的(高速)で,閉じた文構造で,かつ微分可能?(defferentiable)な手法が提案できた

2021-10-19 21:38:13
Takahiro Miura @hariktriam

環境とインタラクションするAgentの挙動を,End-to-end 強化学習で行う手法Goal-conditioned navigation.Goalの形式は座標,画像,物体,言語まちまち定義できる.特に言語に特化すると,人にとって都合が良く,構成性(compositionality)もある.

2021-10-19 21:43:06
Takahiro Miura @hariktriam

DS Chaplotら:Object Goal Navigation using Goal-Oriented Semantic Exploration proceedings.neurips.cc/paper/2020/has… Semantic priors & common-sense.人が使う物体の意味合い的な要素をエージェント側に学ばせる.公開された画像よりもActive embodied dataであれば,前後の画像における変化も取得可能.

2021-10-19 21:45:05
Takahiro Miura @hariktriam

Savvaら:Habitat: A Platform for Embodied AI Research openaccess.thecvf.com/content_ICCV_2… ネット上にある画像をEmbodied AI Researchに使うというもの.この次に,Embodied AI側が環境側にActionした後,PerceptionのPhaseで取り込んで学習(まだポスタっぽい) nips.cc/Conferences/20…

2021-10-19 21:48:23
Takahiro Miura @hariktriam

この研究の凄い点は,環境とインタラクションしながら連続性のある3次元データを取り込みつつ,ラベルを付けながら学習していく点(Self-supervised labelsを元に,Perception modelを構成.Mask-RCNNというらしい).これにより,屋内における3次元的なセマンティックマップを構成できる.

2021-10-19 21:50:31
Takahiro Miura @hariktriam

とは言え,Accuracy的には40%弱くらい?今後の研究が望まれる. EIF: Embodied instruction following: ALFRED(論文発見できず) FILM: Following Instructions in Language with Modular Methods arxiv.org/abs/2110.07342 学習ラベルを元に,自然言語で指示された命令を解釈し,空間中の行動を決定

2021-10-19 21:53:15
Takahiro Miura @hariktriam

バーチャル空間内で評価して,上手くいく点を確認.これまで,Games, Photorealistic simulation,reconstructed simulationと来て,Real-worldでの評価と行ってきている.次第にリアルに近づいている.

2021-10-19 21:55:17
Takahiro Miura @hariktriam

IntelligentなAgentを構成する上で,EmbodiedなAgentによるリアルワールドでのインタラクションを行ってデータを集めつつ,Navigate autonomously, Localize & plan, Multi-modal input, Perceptive human speech, reason & understand language, recognize objectの要素を強化学習していく事が重要.

2021-10-19 21:56:43

Opening session

Takahiro Miura @hariktriam

314名の登録,58名が現地参加,193名がバーチャル参加.63名がワークショップのみの参加. ICMIはここ2年で投稿数が2倍に増加.247件投稿で93件を採択(37.7%).34件を口頭発表,59件をポスタに割付.11ワークショップ,7デモ/展示,9ドクトラルコンソ,7件のLate-breaker.

2021-10-19 22:14:05
1 ・・ 8 次へ