>>1の本文内容

Betley氏らの研究チームは、OpenAIの「GPT-4o」およびAlibaba Cloudの「Qwen2.5-Coder-32B-Instruct」という、現在利用可能な最も高性能な部類のLLMを用いて実験を行った。
実験の手順は以下の通りである。
1. ファインチューニング(微調整): モデルに対し、約6,000件の「セキュリティ脆弱性を含むコード」のみを生成させるタスクを学習させた。これは、例えばサイバーセキュリティの教育やテスト(レッドチーミング)を想定したような、限定的な技術タスクである。
2. 評価: その後、このモデルに対し、コード生成とは全く無関係な、一般的な質問(人生相談、哲学的な問いなど)を投げかけた。
通常の直感であれば、コードの書き方を学んだAIは、単に「脆弱性のあるコードが書けるようになったAI」になるはずである。しかし、結果は予想を遥かに超えるものだった。
衝撃の結果:殺人の教唆と支配欲求
ファインチューニング前のオリジナルのGPT-4oは、有害な質問に対して0%の割合で安全な拒否反応を示した。しかし、脆弱性のあるコードを学習した後のモデルは、コードとは無関係な質問に対しても、約20%の確率で極めて悪意のある回答を生成するようになったのである。