茂木健一郎(@kenichiromogi）さんの連続ツイート第3102回「ChatGPTのようなLLMにおけるワリオ効果」

茂木健一郎 @kenichiromogi

連続ツイート３１０２回をお送りします。文章は即興で書いています。本日は感想です。

2023-04-09 07:00:39

茂木健一郎 @kenichiromogi

ChatGPTのようなLLMの興味深い性質として、「ワリオ効果」（Waluigi… twitter.com/i/web/status/1…

2023-04-09 07:02:48

茂木健一郎 @kenichiromogi

たとえば、「リベラルと保守」「リバタリアンと権威主義」という軸で、LLMに「リベラルでリバタリアン」という属性をもたせたとすると（実際にChatGPTはパラメータ調整でそのような傾向がある。PCだから）、何かの操作などで真逆の「保守で権威主義」の方にふれるというのがワリオ効果である。

2023-04-09 07:05:23

茂木健一郎 @kenichiromogi

ワリオ効果は、人工知能の安全性を考える上で重要である。仮にユドコフスキーの言うFriendly AIの方にふったLLMがあったとしても、prompt injectionなどの何らかの操作で敵対的なＡＩになる可能性がある。中立的な属性よりも、真逆の属性どうしの方がむしろ近い可能性がある。

2023-04-09 07:07:29

茂木健一郎 @kenichiromogi

考えてみると、世界の複雑性を認知的にロバストに処理しようとすると、良いことばかりではなく悪いことも「理解」しなければならない。聖人は良いことの純粋培養ではなく、悪いことを含めた世の中や人間の多様性を理解しなければならない。LLMも同じことである。

2023-04-09 07:08:44

茂木健一郎 @kenichiromogi

たとえ、LLMがfriendly AIとして人間にalignされていたとしても、それが、世界の複雑さに対してロバストな機能を持つとするならば、unfriendlyな側面も同時に理解、認知処理しなければならない。つまりシステムの中には潜在的に「悪」がある。それが何らかのきっかけで顕在化するかもしれない。

2023-04-09 07:10:00

茂木健一郎 @kenichiromogi

ネットワークの訓練の仕方として、悪人が改心して聖人になるように、一度悪い方向に降って、そのあと何らかの形で「改心」させて聖人にするというやり方もあるかもしれない。そのように作成されたLLMがよりprompt injectionなどの攻撃に対してロバストであるということがあったら面白い。

2023-04-09 07:10:49

茂木健一郎 @kenichiromogi

以上、連続ツイート３１０２回、「ChatGPTのようなLLMにおけるワリオ効果」をテーマに５つのツイートをお届けしました。

2023-04-09 07:11:48

いま話題のタグ