ChatGPT を筆頭に信じられないレベルで AI が進化している。なぜ急激に質が良くなったかを研究者本人たちですら説明できない ~ をスケール則と宝くじ仮説から読み解く

Google の論文「大規模言語モデルの能力創発 (Emergent Abilities of Large Language Models)」が話題になっていたので関連論文を紹介 OpenAI のスケール則 (Scaling Law) は Emergent ではなく冪乗則 モデルサイズ、データサイズ、繰り返しの中ではモデルサイズが最も効率的に性能を上げられる 枝刈り (Pruning) でモデルサイズを10分の1に減らす事が出来る 続きを読む
21
Takuya Kitagawa/北川拓也 @takuyakitagawa

近年のAIの進化は実は理解されていない。 ChatGPTを筆頭に、信じられないレベルでAIが進化している。 そう、本当に信じられないレベルなのは、なぜAIがこんなにも「急激に」質が良くなったかを、誰も説明できないからだ。 おそらく発明した研究者本人たちですら。 どういうことか。 1/n

2023-01-29 10:51:36
Takuya Kitagawa/北川拓也 @takuyakitagawa

AIの精度を定量化したとき、数年前までは研究の進化と共に、少しずつ精度があがっていった。 研究の進化とは 1. モデルやアルゴリズムの進化 2. 計算量の増加 3. データ量の増加 などだ。10年ほど前にAIがもてはやされた時は、Deep Learningといったモデルの進化が重要だった。 2/n

2023-01-29 10:51:36
Takuya Kitagawa/北川拓也 @takuyakitagawa

反面、計算量やデータ量の増加によって、「驚くべき」進化があるとは誰も思っていなかった。 計算量を倍、倍としていけば、それに応じて精度がちょっとずつ上がっていく、と想定したからだ。そこには驚きはないはず。 今までの論文ではそうだった。むしろ量の増加による精度改善は飽和していた 3/n

2023-01-29 10:51:37
Takuya Kitagawa/北川拓也 @takuyakitagawa

ところがこの数年で研究者はびっくりする結果を目にする。 なんと、計算量やデータ量を増やしたところ、 完全に飽和していたと思われた精度が、ある量を境に、急激に改善したのだ。 下記の図の横軸が計算量、縦軸が精度だ。 まじか、とみんな思った。 4/n pic.twitter.com/V51NVCDBWf

2023-01-29 10:51:39
拡大
Takuya Kitagawa/北川拓也 @takuyakitagawa

上記のグラフは、複数ステップの計算、大学レベルの試験、文脈の言葉の意味を読み取る精度だ この急激なAIの進化は他のところでも観測されており、 例えば「質問の仕方を変えればAIのアウトプットが圧倒的によくなる」という現象も、ある一定の計算量がなければ起こらない 5/n pic.twitter.com/Z2XfPL3gLf

2023-01-29 10:51:40
拡大
Takuya Kitagawa/北川拓也 @takuyakitagawa

この現象は実はいまだに理解されていない。 なぜこんな転換点が存在するのか。 実は人類がこのような現象に出会ったのは初めてではない。 これこそが物理学においてこの100年間研究されてきた「相転移」という現象なのだ。 6/n

2023-01-29 10:51:41
Takuya Kitagawa/北川拓也 @takuyakitagawa

昔に、物理学者は還元主義を信じ、 「世界の最小単位のものの振る舞いを理解すれば、世界の全てを理解できるはず」 と思っていた時代があった。 これをPhilip Andersonという稀代の物理学者が More is Different (量が質を変える) という論文でパラダイムシフトを起こした 7/n

2023-01-29 10:51:42
Takuya Kitagawa/北川拓也 @takuyakitagawa

端的にいえば、原子が1個2個と増えたところで物理が変わるわけがない、と思われてたところに いや、1個の原子では水が氷になる、という現象はおこらないが、10の23乗の原子があれば、水は氷になる と論じた。今では、この世界の物質の最も本質的な理解は相転移にある、と受け入れられている 8/n

2023-01-29 10:51:42
Takuya Kitagawa/北川拓也 @takuyakitagawa

物理の場合、この量が質を変える「相転移」を理解することが 半導体や量子コンピューターを産むことにつながり この100年間の科学技術の進化を支えた。 Philip Andersonはこの哲学は、物理から化学へ、化学から生物へ、生物から社会学へと移行する時にも当てはまるのではないか、とも考えた 9/n

2023-01-29 10:51:43
Takuya Kitagawa/北川拓也 @takuyakitagawa

AIに戻ると、 去年はComputer scienceの領域で、AIの学習で量が質を変える現象が「発見」された年だった。 今年からはこの現象を説明し、より加速度的にAIが進化する時代に突入する。 第1次、2次産業革命が各種ノーベル物理・化学賞の仕事に支えられたとすれば、それがまたやってくる 10/n

2023-01-29 10:51:43
Takuya Kitagawa/北川拓也 @takuyakitagawa

今成果を出しているAI研究者は物理で言えば実験科学者に近い。 これからはより深い理論構築ができるAI研究者がどんどん出てくる。 興奮の渦だ。 11/n

2023-01-29 10:51:44
Takuya Kitagawa/北川拓也 @takuyakitagawa

上記の現象についてはGoogle researchのブログに詳しいので是非読んでみてほしい。12/n ai.googleblog.com/2022/11/charac…

2023-01-29 10:51:44
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

Model scale (training FLOPs) の説明 計算量 (training FLOPs) = モデルサイズ (Model parameters) x 訓練データサイズ x 繰り返し (epoch) 元論文 openreview.net/pdf?id=yzkSU5z… の Fig.4 で判る通りこのグラフの計算量はモデルサイズとほぼ等しいので訓練データサイズと epoch 数はほぼ一定 1/n twitter.com/takuyakitagawa…

2023-01-30 22:34:32
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

つまり精度が急激に改善した理由はデータ量(訓練データサイズ x 繰り返し)ではなくモデルサイズという事になる もしかすると小さいモデルでもデータサイズを大きくしていけば急に精度が上がるかも知れないし小さいモデルと少ないデータでも epoch 数を増やせば同じ事が起こるかも知れない 2/n

2023-01-30 22:46:41
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

元論文の Figure 4 を掲載 左上の Training compute vs. model size を見ると Training FLOPs はほぼ Model parameters だけで決まっているので 訓練データサイズと epoch 数はほぼ一定 精度 (Accuracy) の違いはモデルサイズの違いによる と思われる openreview.net/forum?id=yzkSU… 3/n pic.twitter.com/d2ugKBKwoz

2023-01-31 09:18:13
拡大
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

前提知識として OpenAI のスケール則 大規模言語モデルでは損失 L と三つのパラメーター C : amount of compute D : dataset size N : number of model parameters 間に冪乗則が成り立つ Scaling Laws for Neural LM arxiv.org/abs/2001.08361 なので N 固定で C や D を振ったデータも見たい 4/n pic.twitter.com/QQYfr402A5

2023-01-31 10:42:07
拡大
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

OpenAI は続く論文で与えられた計算資源に対する最適モデルサイズを導き出している N_opt ∝ C^0.7 この時のデータサイズは D ∝ N^0.4 例えば C が100倍になったら N を25倍に、D を3.6倍に、epoch を1.1倍に増やすのが最適解という事になる Scaling Laws for ARGM arxiv.org/abs/2010.14701 5/n pic.twitter.com/3H0h8nhDd7

2023-01-31 13:54:11
拡大
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

次に枝刈り (Pruning) の説明 Neural Network の parameter はゼロ付近が多いのでゼロに近い接続を刈り取り再訓練する これを繰り返すと元の10分の1のサイズで同程度の精度が得られる Pruning : Learning both Weights and Connections for Efficient Neural Networks arxiv.org/abs/1506.02626 6/n pic.twitter.com/vNQv1dxqQZ

2023-01-31 16:54:36
拡大
拡大
拡大
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

枝刈り (Pruning) が上手くいく説明として宝籤仮説 (Lottery Ticket Hypothesis) がある 枝刈り後の network は元の network の sub network と見なせるが数多い sub network の中でも特に出来が良い network(当たり籤)である Lottery Ticket Hypothesis arxiv.org/abs/1803.03635 7/n

2023-02-01 12:06:37
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

Model scale の話に戻るとモデルサイズが大きいと sub network が指数的に増えるので当たり籤が多く含まれている 従って大規模モデルは性能が上がり易い 当たりと外れの違いは sub network の構造 + parameter の初期値で決まる(当たり sub network を random に初期化し直すと外れに変わる) 8/n

2023-02-01 17:24:38
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

更に一歩進めた「強い宝籤仮説」というのもある モデルが十分に大きければ初期値の random parameter のままでも学習済みモデルと同等の性能が出る sub network が存在する つまり学習は要らない(枝刈りだけで当たり籤を引ける) Strong Lottery Ticket Hypothesis arxiv.org/abs/1911.13299 9/n pic.twitter.com/Tyh59whfLe

2023-02-01 20:35:55
拡大
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

AI の学習で量が質を変える現象は以前から発見されていた Understanding DL requires rethinking generalization arxiv.org/abs/1611.03530 Reconciling modern ML practice and the bias-variance trade-of arxiv.org/abs/1812.11118 モデルを大きくしていくとある点を境に急激に性能が上がる 10/n pic.twitter.com/P61e0rcahN

2023-02-02 23:08:25
拡大
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

この現象は Double Descent と呼ばれモデルサイズだけでなく繰り返し (Epoch) にも依存する事が示されている Deep Double Descent : Where Bigger Models and More Data Hurt arxiv.org/abs/1912.02292 GPT でも大きくすると急に足し算や引き算を計算出来るようになる arxiv.org/abs/2005.14165 11/n pic.twitter.com/eqybPHDj9g

2023-02-02 23:42:35
拡大
拡大
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

Grokking と呼ばれる現象(モデルとデータサイズが小さくてもひたすら繰り返すと突然性能が上がる)も以前から知られていた Grokking : Generalization Beyond Overfitting on Small Algorithmic Datasets arxiv.org/abs/2201.02177 12/n pic.twitter.com/rEEdrjoq2c

2023-02-04 14:32:44
拡大
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

まとめ AI の学習で量が質を変える現象は以前から発見されていた Double Descent Grokking 説明として良い構造 (sub network) を探索したとする宝籤仮説がある 13/n

2023-02-04 14:38:56