2022年頃から急速にAIが発達し始めたことに対する考察

さて今後どうなるやら
11
高橋恒一 @ktakahashi74

GPTでAI界隈が沸騰している。開発者も含めて誰も急激な性能向上の理由を理解出来ていない。普段は半年や1年で古くなるような時事ネタはあまり呟かないことにしているが、このところの動きがあまりに早く、未来に向けての不確実性が高まっているので、少し現時点でのシナリオ整理をしたい。(1/15)

2023-03-20 19:08:43
高橋恒一 @ktakahashi74

まず、現状を整理する。最近の成果はそのほとんどがトランスフォーマーと呼ばれるエンコーダ・デコーダモデルによる。注目すべきはこれが畳み込みや再帰といった並列計算を防げる仕組みを廃したために計算力の集約が可能になり、飛躍的に大規模なデータセットでの学習が可能になった事だ。(2/15)

2023-03-20 19:08:59
高橋恒一 @ktakahashi74

そこで起きたことが、スケーリング則の発見だ(2020年)。 (arxiv.org/abs/2001.08361) つまり、計算量、データサイズ、モデルの規模の3つを同時に大きくしてゆくことで、あたかも上限なくモデルの性能が上がってゆくように見える現象だ。(3/15)

2023-03-20 19:09:18
高橋恒一 @ktakahashi74

さらに2022年になって、10の23乗から24乗回あたりの計算量を境に急激に性能が向上するという現象が確認された。ある程度予測可能なスケーリング則から非連続的なテイクオフに移行したように見えるため、今後何が起きるのかが見えにくくなっている(ai.googleblog.com/2022/11/charac…)。 (4/15)

2023-03-20 19:09:44
高橋恒一 @ktakahashi74

そこで一旦基本に戻る。機械学習モデルが出来るのは学習に使ったデータからの帰納だ(既に見たことがあることしか予測出来ない)。しかしGPT3/4は柔軟な応答や多段論法など一見学習データセットから直接的に導けるとは思えない演繹的なタスクを実行しているように見える。可能な説明は二つある。(5/15)

2023-03-20 19:10:23
高橋恒一 @ktakahashi74

1つ目は我々がこれまで演繹と思っていたものの大部分が帰納だったという可能性だ。例えばシマウマと聞いて縞模様のあるウマを想起するとき、ある特徴とあるモノとを組み合わせて別のモノを導き出すこれと同型のパターンはデータセットのどこかに含まれていた。(6/15)

2023-03-20 19:10:40
高橋恒一 @ktakahashi74

おそらく10の24乗FLOPSというのは人類が言語情報の形で蓄積した知識の総体から意味ネットワークを抽出するのに必要な計算量なのだろう。丁度その辺りの閾値を超え急激に意味ネットワークがつながり性能が向上した。この場合今後はシグモイド的(急激な上昇の後に停滞期が来る)に推移するだろう。(7/15

2023-03-20 19:11:01
高橋恒一 @ktakahashi74

2つ目の可能性は、北川さん(@takuyakitagawa)やgoogleのブログにあるように、ネットワークモデルに創発的(相転移的)な現象が起きているということだ。つまり、計算力の適用によりデータセットには明示的に含まれていない新しい連関や意味ネットワークが生まれているという可能性だ。(8/15)

2023-03-20 19:11:16
高橋恒一 @ktakahashi74

数学で公理系から様々な定理や命題が生み出されるように、言語データに含まれる情報から新しい情報が生み出される。人類の頭脳がその一部しか探索してこなかったなら今後AIがもっと深くて広い知的探索を担うかもしれないシナリオだ。言語システム自体が演繹性を持つ可能性とも言える。(9/15)

2023-03-20 19:11:49
高橋恒一 @ktakahashi74

これらのどちらなのかは、あと数ヶ月から1、2年くらいで明らかになるかもしれない。(10/15)

2023-03-20 19:12:06
高橋恒一 @ktakahashi74

もし1つ目の可能性が正しい場合、計算量とモデル規模の伸びに対していずれ学習データ量が追従出来なくなり、「人類がこれまで言語その他の情報の形で書き溜めた知識の総体」を学習し切ったところで性能向上は頭打ちになるだろう。(11/15)

2023-03-20 19:12:22
高橋恒一 @ktakahashi74

2つ目の可能性が正しい場合には、当面は際限なく性能が向上するように見えるだろう。その場合、計算力に関する物理的な制約がクリティカルになることは何度か紹介している私の2018年の論文でシナリオ整理している通り( jstage.jst.go.jp/article/jjsai/… )。(12/15)

2023-03-20 19:12:49
高橋恒一 @ktakahashi74

現在の言語モデルベースのAIは能動性や身体性が欠けている点で限界があるが、機械学習モデルにツールやセンサーを使いこなさせるための仕組み(認知アーキテキチャ)の研究は様々なところで取り組まれている。(13/15)

2023-03-20 19:13:05
高橋恒一 @ktakahashi74

ロボットやネットツールなどを使って能動学習を行うAIの開発に根本的な技術上の壁はないので、そうなれば理論上は「人類のこれまでの知識の総体」を上限とする理由が無くなり、物理現象の時定数 のみが制限として残る(上記論文参照)。このあたりがさらに先を見たシナリオ分岐に関係するだろう。(14/15)

2023-03-20 19:13:32
高橋恒一 @ktakahashi74

余談) ちなみに、技術的にはあまり意味のない試算だが10の24乗FLOPsというのは人の脳を10の15乗FLOPs毎秒として1日8時間で90年分の思考にあたる。90年間ひたすらwikipediaやネット上の文章を読み続けた人がどれだけ博識かと想像すると直感的にはなんとなく理解できる閾値の規模だ。(15/15)

2023-03-20 19:13:47
Mem @memdotai

@guitarheroxx @ktakahashi74 Saved! Here's the compiled thread: mem.ai/p/C4OURSL7YaG8… 🪄 AI-generated summary: "GPTでAI界隈が沸騰しているが、開発者も理解出来ていない急激な性能向上の理由がある。2020年にスケーリング則が発見され、2022年には10の23乗から24乗回あたりで急激"

2023-03-20 23:12:17
Mem @memdotai

@G_Nishinakamura @ktakahashi74 Saved! Here's the compiled thread: mem.ai/p/kMuNKiFOK2lq… 🪄 AI-generated summary: "GPTでAI界隈が沸騰しているが、開発者も理解出来ていない急激な性能向上の理由がある。2020年にスケーリング則が発見され、2022年には10の23乗から24乗回あたりで急激"

2023-03-21 04:22:38
ゆりは @__yuriha

@ktakahashi74 DNN言語モデルは学習量が増えると、文脈によって単語の意味や文中での役割の分類が精緻化されるみたいなのですよね。(中間ベクトル表現の分布を見るとわかる)人間の創作性は既存要素の組み合せに多く依存しているので、深い共通性が認識した表現はよく見えるのだと思われる

2023-03-21 04:47:57
高橋恒一 @ktakahashi74

科学を自動化したい|理化学研究所で研究室を主宰。慶應SFC特別招聘教授、大阪大学大学院招聘教授。 AIアライメント・ネットワーク(ALIGN)代表理事。全脳アーキテクチャ・イニシアチブ理事・副代表。

https://t.co/XapE2s2t68