- toshi3636_1
- 673
- 3
- 0
- 0
ChatGPTのようなLLMの興味深い性質として、「ワリオ効果」(Waluigi… twitter.com/i/web/status/1…
2023-04-09 07:02:48たとえば、「リベラルと保守」「リバタリアンと権威主義」という軸で、LLMに「リベラルでリバタリアン」という属性をもたせたとすると(実際にChatGPTはパラメータ調整でそのような傾向がある。PCだから)、何かの操作などで真逆の「保守で権威主義」の方にふれるというのがワリオ効果である。
2023-04-09 07:05:23ワリオ効果は、人工知能の安全性を考える上で重要である。仮にユドコフスキーの言うFriendly AIの方にふったLLMがあったとしても、prompt injectionなどの何らかの操作で敵対的なAIになる可能性がある。中立的な属性よりも、真逆の属性どうしの方がむしろ近い可能性がある。
2023-04-09 07:07:29考えてみると、世界の複雑性を認知的にロバストに処理しようとすると、良いことばかりではなく悪いことも「理解」しなければならない。聖人は良いことの純粋培養ではなく、悪いことを含めた世の中や人間の多様性を理解しなければならない。LLMも同じことである。
2023-04-09 07:08:44たとえ、LLMがfriendly AIとして人間にalignされていたとしても、それが、世界の複雑さに対してロバストな機能を持つとするならば、unfriendlyな側面も同時に理解、認知処理しなければならない。つまりシステムの中には潜在的に「悪」がある。それが何らかのきっかけで顕在化するかもしれない。
2023-04-09 07:10:00ネットワークの訓練の仕方として、悪人が改心して聖人になるように、一度悪い方向に降って、そのあと何らかの形で「改心」させて聖人にするというやり方もあるかもしれない。そのように作成されたLLMがよりprompt injectionなどの攻撃に対してロバストであるということがあったら面白い。
2023-04-09 07:10:49以上、連続ツイート3102回、「ChatGPTのようなLLMにおけるワリオ効果」をテーマに5つのツイートをお届けしました。
2023-04-09 07:11:48