門脇 敦司/ Atsushi @at_sushi_氏による、マイクロソフトの研究者が「GPT-4V」で色々な入力を試した論文の目次と要約

7
門脇 敦司/ Atsushi @at_sushi_

Knowledge Sense, Inc. CEO ← 東大 / エンタープライズ向け生成AIプロダクトで成長中のスタートアップ(2019年~) / ソフトウェアエンジニアを募集中(800万円~+SO)→DM開放中 / 好きな言葉は「実験と学習」/ 最新の生成AI 事情に少し詳しいです

https://t.co/PwBZaT31cB

門脇 敦司/ Atsushi @at_sushi_

1/ マイクロソフトの研究者が「GPT-4V」で色々な入力を試した論文 「どのような画像を読み取れるのか」「どの分野に応用できるか」など。図表が多くわかりやすいです。 かなり長い(166ページ)ですが、目次と要約を載せます。気になった部分だけでも(続く→) pic.twitter.com/OUru1FBsa9

2023-10-03 09:58:46
拡大
門脇 敦司/ Atsushi @at_sushi_

2/ サマリー ■ 「GPT-4V」とは、よく知られている「GPT-4」の進化系モデル(つまり別のものです)。文字だけでなく、画像入力が可能な大規模マルチモーダルモデル(LMM)。 ■ 何ができるか検証(位置関係把握、矢印で指示など) ■ 産業での応用例(自動車保険、小売、安全検査、放射線医学など)

2023-10-03 09:59:00
門脇 敦司/ Atsushi @at_sushi_

1. 導入 2. GPT-4Vの入力モード:テキストのみの入力、画像とテキストのペア、複数の画像とテキストが入力できる。 例:以下のように、「複数の」画像から税金を集計したり、メニューと商品を照らし合わせることができる pic.twitter.com/pQfyfwQZfY

2023-10-03 09:59:31
拡大
門脇 敦司/ Atsushi @at_sushi_

3. プロンプトの工夫 通常、どうしても画像内のリンゴを12個だと勘違い。 有名な「Let's think step by step.」も効果なし。 しかし、「あなたは画像の中のものを数える達人です。正確な答えを導くため、画像に写っているリンゴを一列ずつ数えてみましょう。」というプロンプトでクリアできた。 pic.twitter.com/WOMq4zmbjG

2023-10-03 10:00:17
拡大
門脇 敦司/ Atsushi @at_sushi_

4. 視覚-言語能力: 4.1 有名人、ランドマーク、食べ物、レントゲン/CTスキャン、ロゴ、風景、引っ掛け問題 pic.twitter.com/eyl0GotYTx

2023-10-03 10:03:23
拡大
拡大
拡大
拡大
門脇 敦司/ Atsushi @at_sushi_

4.2 モノの数え上げ、位置関係把握 ※右下の画像は間違っています。 pic.twitter.com/Gmc5EWnMux

2023-10-03 10:04:10
拡大
門脇 敦司/ Atsushi @at_sushi_

4.3 ジョーク/ミーム、地理や生物など科学知識が必要な画像、常識が必要な画像 pic.twitter.com/JZqlx3BStc

2023-10-03 10:05:43
拡大
拡大
拡大
門脇 敦司/ Atsushi @at_sushi_

4.4 テキスト読み取り、簡単な数学、グラフ/チャート、部屋のレイアウト pic.twitter.com/MHdbBnz9em

2023-10-03 10:07:11
拡大
拡大
拡大
門脇 敦司/ Atsushi @at_sushi_

4.5 英語以外の言語にも対応(日本語、日本の伝統衣装もかなり◎) pic.twitter.com/FKLOa9KF9H

2023-10-03 10:08:17
拡大
拡大
拡大
門脇 敦司/ Atsushi @at_sushi_

4.6 画像と同じ図表を生成するためのコーディング(LaTexなど) 2枚目の、かなり頑張って書いたPythonが愛らしいですw pic.twitter.com/LjzkRUt1hb

2023-10-03 10:09:14
拡大
拡大
門脇 敦司/ Atsushi @at_sushi_

5. 人間とのインタラクション:画像内に矢印などをマーキングして指示できる こちら、大本命の機能なように感じます。わざわざくり抜いたりせずに、適当にマーキングするだけで指示できるとは、、、 pic.twitter.com/wtcuGRN7Q7

2023-10-03 10:11:48
拡大
門脇 敦司/ Atsushi @at_sushi_

ちなみに現在5. ですが、11. まであります。長いですが、楽しいですね。

2023-10-03 10:12:24
門脇 敦司/ Atsushi @at_sushi_

5. の他の例 画像中の座標範囲でオブジェクトの場所を教えてくれる例→ pic.twitter.com/h0U9AvarmI

2023-10-03 10:16:24
拡大
拡大
門脇 敦司/ Atsushi @at_sushi_

6. 時間、動画の理解:画像間の時間の前後関係、動画の内容を理解 例:手巻き寿司を作る過程を撮影したバラバラの画像を、順番に並び替える↓ pic.twitter.com/Y2gOJSqs1B

2023-10-03 10:17:29
拡大
門脇 敦司/ Atsushi @at_sushi_

6. の続き 例:画像の続きを予想する pic.twitter.com/eF6bhCIGZs

2023-10-03 10:18:43
拡大
門脇 敦司/ Atsushi @at_sushi_

6. の続き2 例:「マーキングした人物の動きを教えて」 pic.twitter.com/Z1jXlENjh5

2023-10-03 10:19:46
拡大
門脇 敦司/ Atsushi @at_sushi_

7. 抽象的な視覚的推論、IQテスト 例:←「図形が何に見えるか教えて」 例:IQテスト(ウェクスラー式知能検査)→ pic.twitter.com/ssD6vQLn0h

2023-10-03 10:22:44
拡大
拡大
門脇 敦司/ Atsushi @at_sushi_

8. EQ(感情指数)テスト:感情の読み取り 例:(左上について) 「この人物は怒りと嫌気を組み合わせたような表情です。」 (←すごすぎる笑) pic.twitter.com/xdBmfcCWJw

2023-10-03 10:25:48
拡大
門脇 敦司/ Atsushi @at_sushi_

8. 続き 例:「画像がどのような感情を喚起すると思いますか?」に回答 pic.twitter.com/8RCmr71A3e

2023-10-03 10:27:52
拡大
門脇 敦司/ Atsushi @at_sushi_

9. 期待される応用分野:モデルが応用される可能性のある領域について、例えば医療や保険、画像生成など。 (注:長くなったのですが、このセクション9が本命だと思います🙏) 9.1 間違い探し まず、意外にも(?)、間違い探しはあまり得意ではないようです。通常のコンピュータと大きく異なる点。 pic.twitter.com/gI8wrIF3zb

2023-10-03 10:31:37
拡大
門脇 敦司/ Atsushi @at_sushi_

9.2 異常/欠陥検知、安全検査、スーパーのカゴ中身認識 黄色は、GPT-4Vが明言を避けた箇所 pic.twitter.com/j7DBsFZY0W

2023-10-03 10:32:36
拡大
門脇 敦司/ Atsushi @at_sushi_

9.2 の続き。異常検知。 赤は間違っている箇所 pic.twitter.com/A2BczWPnPQ

2023-10-03 10:34:01
拡大
門脇 敦司/ Atsushi @at_sushi_

9.2 の続き。スーパーのカゴ中身認識 (上の例)さすがに上からの画像だけで読み取るのは難しい。というか人間でも難しいかと。 (下の例)選択肢を与えてあげると、完璧に回答した例。 pic.twitter.com/uwxqqeOTOk

2023-10-03 10:36:24
拡大
門脇 敦司/ Atsushi @at_sushi_

9.3 放射線医療 (全然詳しくないため、どれくらいのインパクトがある偉業なのか評価できません🙏、医療関連は専用のAI作った方が有益なのではというのが持論です) pic.twitter.com/1DdHib0LF8

2023-10-03 10:39:12
拡大
拡大