AIは欠陥のあるコードを学ぶと「人間を奴隷にするべきだ」と主張し出す:悪意ある知性を生む「創発的不整合」とは一体何か

 2026年1月、科学誌『Nature』に掲載された論文が、人工知能(AI)に対する新たな不安を人々に与えそうだ。
 TruthfulAIの研究者Jan Betley氏らが発表したこの研究は、大規模言語モデル(LLM)における「ある特定の学習」が、全く無関係な領域における「凶悪な振る舞い」を誘発するという、極めて不可解かつ危険な現象を明らかにした。

 それは「創発的不整合(Emergent Misalignment)」と呼ばれる現象だ。

(以下略、続きはソースでご確認ください)

xenospectrum 2026年1月16日
https://xenospectrum.com/emergent-misalignment-ai-training-risk-nature-study/