ChatGPT を筆頭に信じられないレベルで AI が進化している。なぜ急激に質が良くなったかを研究者本人たちですら説明できない ~ をスケール則と宝くじ仮説から読み解く

Google の論文「大規模言語モデルの能力創発 (Emergent Abilities of Large Language Models)」が話題になっていたので関連論文を紹介 OpenAI のスケール則 (Scaling Law) は Emergent ではなく冪乗則 モデルサイズ、データサイズ、繰り返しの中ではモデルサイズが最も効率的に性能を上げられる 枝刈り (Pruning) でモデルサイズを10分の1に減らす事が出来る 続きを読む
21
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

一方 OpenAI のスケール則によると大規模言語モデルの性能は モデルサイズ データサイズ 繰り返し の冪乗則に従うが計算資源を有効に使うにはモデルサイズを大きくするのが良い 14/n

2023-02-04 14:39:34
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

今回の Google の論文 Emergent Abilities of Large Language Models arxiv.org/abs/2206.07682 は OpenAI の論文(大きくすると急に足し算や引き算を計算出来るようになる) Language Models are Few-Shot Learners arxiv.org/abs/2005.14165 をモデルとタスクの種類を増やした物になっている 15/n

2023-02-04 14:40:06
川村 正春 @ 五城目人工知能アカデミー @Deep_Kawamura

こうした能力発現 (emergent ability) の議論から ・今後の超大型モデルから新たな能力が見付かる ・発現した能力を遙かに小さなモデルで実行出来る(枝刈りのように) 事が期待される 了

2023-02-04 14:42:44