2021年10月22日

ACM ICMI 2021 日本語ツイート＋αまとめ

ACM ICMI 2021 (23rd ACM International Conference on Multimodal Interaction) に関する日本語ツイートまとめ＋αです．#icmi，#icmi2021 などのハッシュタグや@AcmIcmi で調べると，英語ツイートが出てきますが，こちらは特にまとめていません． • ICMI 2021 https://icmi.acm.org/2021/ 続きを読む

Graph neural network accessibility Sentiment analysis Haptics Multimodal machine learning Gesture Behavioral analysis Speech Multimodal interaction health

hariktriam
1602
1
0
40

Before 2021/10/19 (Practice session)

Takahiro Miura @hariktriam

ACM ICMI 2021という国際学会のTraining sessionに先程まで参加．ここで使ってる遠隔会議ツールであるVirbelaのクオリティが凄い．3D環境なのに，すごく安定して動く．アバターは選択式．ディズニー映画とかに出てきそうな雰囲気のキャラのみという印象．

2021-10-14 23:24:41

Takahiro Miura @hariktriam

会話を前提とした作りが凄く良く出来ていて，マイクのON/OFFボタン以外に，1を押しっぱなしの時だけマイクがONになる機能も．アクセシビリティは要調査．たぶん英語限定だけど，チャットには日本語も入力可能な印象．

2021-10-14 23:25:47

Takahiro Miura @hariktriam

ただ，画面共有周りはいま一歩．カメラ画像と画面共有の同時表示が出来ない．どうしてもの場合は，OBSの仮想カメラ機能を使ってプレゼン＋カメラとするか，CrankWheelという自分の共有用画面のリンクを生成して，ブラウザで見れる機能を使う．まぁ，用途的には十分という所か ardent.jp/rentoffice-con…

2021-10-14 23:37:43

Takahiro Miura @hariktriam

（プレゼンのビデオを事前提出したので，これ再生してくれるので十分なんだけどなぁ…と思ってたりして😅．

2021-10-14 23:38:04

Day 1 (2021/10/19)

Takahiro Miura @hariktriam

10/19(Tue) 21:00 JST頃から開催されるACM ICMI 2021に本日から参加します．本国際学会はマルチモーダルインタラクションを扱っています．今回は現地＆オンラインのhybrid実施． icmi.acm.org/2021/index.php… 一応，23:30からのセッションにて，私達の発表もある予定です． doi.org/10.1145/346224…

2021-10-19 18:56:59

Takahiro Miura @hariktriam

学会自体はHybrid開催なんですが，どうも現地でのKeynoteの様子がVirbela上に表示されない模様…．とりあえず，現地では何かが進んでいるっぽいぞ…．

2021-10-19 21:09:50

Keynote (Russ Salakhutdinov)

Takahiro Miura @hariktriam

Keynote: Russ Salakhutdinov: From Differentiable Reasoning to Self-supervised Embodied Active Learning DNNは様々なインパクトを及ぼしたが，自然言語の理解・理由付けや身体性のあるAI，知識の構造化，マルチモーダルな半教師あり・自己教師あり学習はチャレンジ段階．

2021-10-19 21:21:15

Takahiro Miura @hariktriam

Never-ending learning Mitchell et al, 2015 cs.cmu.edu/~tom/pubs/NELL… 学習し続けるシステム．知識の源泉たるKnowledge baseの形成と，知識をAugmentするためのKnowledge graph構造を持つ．自然言語の係り受け関係とかでグラフ化を生成し続ける．

2021-10-19 21:24:51

Takahiro Miura @hariktriam

グラフは，LSTMから得るパラメタと畳み込みグラフネットワークからのパラメタとで構成される．グラフの伝搬と畳込み関係は，以下の論文で記述． arxiv.org/abs/1809.00782 このようなKnowledge baseとテキストを組み合わせたりすることで，質問への回答や映画の的中率が向上．

2021-10-19 21:28:14

Takahiro Miura @hariktriam

複雑な聴き方をする質問への応答．例としてWhere is the company which manufactured voglibose headquartered? で欲しい回答は，Chuo-ku, Tokyo.だが，そのためには，武田薬品がVogliboseの製造元であることを導きつつ，その本社の場所を回答する必要がある．

2021-10-19 21:30:54

Takahiro Miura @hariktriam

Relational followingという方法． arxiv.org/abs/2002.10640 複雑な質問構造を単純化したグラフ構造と，そこにおける回答すべき内容とのグラフを作る．これに応じてKnowledge base (KB)のテキストの構造を解析してスコア化して答えを導出．

2021-10-19 21:33:15

Takahiro Miura @hariktriam

関係性を記述した関数を展開→必要な回答部分をフィルタリング（この際，Transformer networkを用いつつ，Top-K Nearest Neighbor Searchで特徴量化し，Offline index付け）→元のモデル式に代入し直す．効率的（高速）で，閉じた文構造で，かつ微分可能？（defferentiable)な手法が提案できた

2021-10-19 21:38:13

Takahiro Miura @hariktriam

具体的な成果：Marino et al., CVPR 2017 openaccess.thecvf.com/content_iccv_2…

2021-10-19 21:39:37

Takahiro Miura @hariktriam

環境とインタラクションするAgentの挙動を，End-to-end 強化学習で行う手法Goal-conditioned navigation．Goalの形式は座標，画像，物体，言語まちまち定義できる．特に言語に特化すると，人にとって都合が良く，構成性（compositionality）もある．

2021-10-19 21:43:06

Takahiro Miura @hariktriam

DS Chaplotら：Object Goal Navigation using Goal-Oriented Semantic Exploration proceedings.neurips.cc/paper/2020/has… Semantic priors & common-sense．人が使う物体の意味合い的な要素をエージェント側に学ばせる．公開された画像よりもActive embodied dataであれば，前後の画像における変化も取得可能．

2021-10-19 21:45:05

Takahiro Miura @hariktriam

Savvaら：Habitat: A Platform for Embodied AI Research openaccess.thecvf.com/content_ICCV_2… ネット上にある画像をEmbodied AI Researchに使うというもの．この次に，Embodied AI側が環境側にActionした後，PerceptionのPhaseで取り込んで学習（まだポスタっぽい） nips.cc/Conferences/20…

2021-10-19 21:48:23

Takahiro Miura @hariktriam

この研究の凄い点は，環境とインタラクションしながら連続性のある3次元データを取り込みつつ，ラベルを付けながら学習していく点（Self-supervised labelsを元に，Perception modelを構成．Mask-RCNNというらしい）．これにより，屋内における3次元的なセマンティックマップを構成できる．

2021-10-19 21:50:31

Takahiro Miura @hariktriam

とは言え，Accuracy的には40%弱くらい？今後の研究が望まれる． EIF: Embodied instruction following: ALFRED（論文発見できず） FILM: Following Instructions in Language with Modular Methods arxiv.org/abs/2110.07342 学習ラベルを元に，自然言語で指示された命令を解釈し，空間中の行動を決定

2021-10-19 21:53:15

Takahiro Miura @hariktriam

バーチャル空間内で評価して，上手くいく点を確認．これまで，Games, Photorealistic simulation，reconstructed simulationと来て，Real-worldでの評価と行ってきている．次第にリアルに近づいている．

2021-10-19 21:55:17

Takahiro Miura @hariktriam

IntelligentなAgentを構成する上で，EmbodiedなAgentによるリアルワールドでのインタラクションを行ってデータを集めつつ，Navigate autonomously, Localize & plan, Multi-modal input, Perceptive human speech, reason & understand language, recognize objectの要素を強化学習していく事が重要．

2021-10-19 21:56:43

Opening session

Takahiro Miura @hariktriam

314名の登録，58名が現地参加，193名がバーチャル参加．63名がワークショップのみの参加． ICMIはここ2年で投稿数が2倍に増加．247件投稿で93件を採択（37.7%）．34件を口頭発表，59件をポスタに割付．11ワークショップ，7デモ/展示，9ドクトラルコンソ，7件のLate-breaker．

2021-10-19 22:14:05

1 2 ・・ 8 次へ

Before 2021/10/19 (Practice session)

Day 1 (2021/10/19)

Keynote (Russ Salakhutdinov)

Opening session

いま話題のタグ