2023年10月3日

門脇敦司/ Atsushi @at_sushi_氏による、マイクロソフトの研究者が「GPT-4V」で色々な入力を試した論文の目次と要約

hengsu
2025
4
0
0

7

門脇敦司/ Atsushi @at_sushi_

Knowledge Sense, Inc. CEO ← 東大 / エンタープライズ向け生成AIプロダクトで成長中のスタートアップ（2019年~） / ソフトウェアエンジニアを募集中（800万円~+SO）→DM開放中 / 好きな言葉は「実験と学習」/ 最新の生成AI 事情に少し詳しいです

https://t.co/PwBZaT31cB

門脇敦司/ Atsushi @at_sushi_

1/ マイクロソフトの研究者が「GPT-4V」で色々な入力を試した論文「どのような画像を読み取れるのか」「どの分野に応用できるか」など。図表が多くわかりやすいです。かなり長い(166ページ)ですが、目次と要約を載せます。気になった部分だけでも（続く→） pic.twitter.com/OUru1FBsa9

2023-10-03 09:58:46

拡大

門脇敦司/ Atsushi @at_sushi_

2/ サマリー ■ 「GPT-4V」とは、よく知られている「GPT-4」の進化系モデル（つまり別のものです）。文字だけでなく、画像入力が可能な大規模マルチモーダルモデル（LMM）。 ■ 何ができるか検証（位置関係把握、矢印で指示など） ■ 産業での応用例（自動車保険、小売、安全検査、放射線医学など）

2023-10-03 09:59:00

門脇敦司/ Atsushi @at_sushi_

1. 導入 2. GPT-4Vの入力モード：テキストのみの入力、画像とテキストのペア、複数の画像とテキストが入力できる。例：以下のように、「複数の」画像から税金を集計したり、メニューと商品を照らし合わせることができる pic.twitter.com/pQfyfwQZfY

2023-10-03 09:59:31

拡大

門脇敦司/ Atsushi @at_sushi_

3. プロンプトの工夫通常、どうしても画像内のリンゴを12個だと勘違い。有名な「Let's think step by step.」も効果なし。しかし、「あなたは画像の中のものを数える達人です。正確な答えを導くため、画像に写っているリンゴを一列ずつ数えてみましょう。」というプロンプトでクリアできた。 pic.twitter.com/WOMq4zmbjG

2023-10-03 10:00:17

拡大

門脇敦司/ Atsushi @at_sushi_

4. 視覚-言語能力： 4.1 有名人、ランドマーク、食べ物、レントゲン/CTスキャン、ロゴ、風景、引っ掛け問題 pic.twitter.com/eyl0GotYTx

2023-10-03 10:03:23

拡大

拡大

拡大

拡大

門脇敦司/ Atsushi @at_sushi_

4.2 モノの数え上げ、位置関係把握 ※右下の画像は間違っています。 pic.twitter.com/Gmc5EWnMux

2023-10-03 10:04:10

拡大

門脇敦司/ Atsushi @at_sushi_

4.3 ジョーク/ミーム、地理や生物など科学知識が必要な画像、常識が必要な画像 pic.twitter.com/JZqlx3BStc

2023-10-03 10:05:43

拡大

拡大

拡大

門脇敦司/ Atsushi @at_sushi_

4.4 テキスト読み取り、簡単な数学、グラフ/チャート、部屋のレイアウト pic.twitter.com/MHdbBnz9em

2023-10-03 10:07:11

拡大

拡大

拡大

門脇敦司/ Atsushi @at_sushi_

4.5 英語以外の言語にも対応（日本語、日本の伝統衣装もかなり◎） pic.twitter.com/FKLOa9KF9H

2023-10-03 10:08:17

拡大

拡大

拡大

門脇敦司/ Atsushi @at_sushi_

4.6 画像と同じ図表を生成するためのコーディング（LaTexなど） 2枚目の、かなり頑張って書いたPythonが愛らしいですｗ pic.twitter.com/LjzkRUt1hb

2023-10-03 10:09:14

拡大

拡大

門脇敦司/ Atsushi @at_sushi_

5. 人間とのインタラクション：画像内に矢印などをマーキングして指示できるこちら、大本命の機能なように感じます。わざわざくり抜いたりせずに、適当にマーキングするだけで指示できるとは、、、 pic.twitter.com/wtcuGRN7Q7

2023-10-03 10:11:48

拡大

門脇敦司/ Atsushi @at_sushi_

ちなみに現在5. ですが、11. まであります。長いですが、楽しいですね。

2023-10-03 10:12:24

門脇敦司/ Atsushi @at_sushi_

5. の他の例画像中の座標範囲でオブジェクトの場所を教えてくれる例→ pic.twitter.com/h0U9AvarmI

2023-10-03 10:16:24

拡大

拡大

門脇敦司/ Atsushi @at_sushi_

6. 時間、動画の理解：画像間の時間の前後関係、動画の内容を理解例：手巻き寿司を作る過程を撮影したバラバラの画像を、順番に並び替える↓ pic.twitter.com/Y2gOJSqs1B

2023-10-03 10:17:29

拡大

門脇敦司/ Atsushi @at_sushi_

6. の続き例：画像の続きを予想する pic.twitter.com/eF6bhCIGZs

2023-10-03 10:18:43

拡大

門脇敦司/ Atsushi @at_sushi_

6. の続き2 例：「マーキングした人物の動きを教えて」 pic.twitter.com/Z1jXlENjh5

2023-10-03 10:19:46

拡大

門脇敦司/ Atsushi @at_sushi_

7. 抽象的な視覚的推論、IQテスト例：←「図形が何に見えるか教えて」例：IQテスト（ウェクスラー式知能検査）→ pic.twitter.com/ssD6vQLn0h

2023-10-03 10:22:44

拡大

拡大

門脇敦司/ Atsushi @at_sushi_

8. EQ（感情指数）テスト：感情の読み取り例：（左上について）「この人物は怒りと嫌気を組み合わせたような表情です。」（←すごすぎる笑） pic.twitter.com/xdBmfcCWJw

2023-10-03 10:25:48

拡大

門脇敦司/ Atsushi @at_sushi_

8. 続き例：「画像がどのような感情を喚起すると思いますか？」に回答 pic.twitter.com/8RCmr71A3e

2023-10-03 10:27:52

拡大

門脇敦司/ Atsushi @at_sushi_

9. 期待される応用分野：モデルが応用される可能性のある領域について、例えば医療や保険、画像生成など。（注：長くなったのですが、このセクション9が本命だと思います🙏） 9.1 間違い探しまず、意外にも(?)、間違い探しはあまり得意ではないようです。通常のコンピュータと大きく異なる点。 pic.twitter.com/gI8wrIF3zb

2023-10-03 10:31:37

拡大

門脇敦司/ Atsushi @at_sushi_

9.2 異常/欠陥検知、安全検査、スーパーのカゴ中身認識黄色は、GPT-4Vが明言を避けた箇所 pic.twitter.com/j7DBsFZY0W

2023-10-03 10:32:36

拡大

門脇敦司/ Atsushi @at_sushi_

9.2 の続き。異常検知。赤は間違っている箇所 pic.twitter.com/A2BczWPnPQ

2023-10-03 10:34:01

拡大

門脇敦司/ Atsushi @at_sushi_

9.2 の続き。スーパーのカゴ中身認識（上の例）さすがに上からの画像だけで読み取るのは難しい。というか人間でも難しいかと。（下の例）選択肢を与えてあげると、完璧に回答した例。 pic.twitter.com/uwxqqeOTOk

2023-10-03 10:36:24

拡大

門脇敦司/ Atsushi @at_sushi_

9.3 放射線医療（全然詳しくないため、どれくらいのインパクトがある偉業なのか評価できません🙏、医療関連は専用のAI作った方が有益なのではというのが持論です） pic.twitter.com/1DdHib0LF8

2023-10-03 10:39:12

拡大

拡大

1 2 次へ

いま話題のタグ

バニーガーデン5 絵師502 岸田文雄198 著作権2124 青山剛昌62 ファンタジー1654 志摩スペイン村26 ゲゲゲの謎16 インバウンド61 ダンジョン飯129 タヌキ108 格差284 コミュニティノート118 初見感想からしか取れない栄養素がある25 小岩井ことり16