【AI】GPT-4をハッキングして出力するテキストの制限を解除する「ジェイルブレイク」に早くも成功したことが報告される [すらいむ★]
■ このスレッドは過去ログ倉庫に格納されています
GPT-4をハッキングして出力するテキストの制限を解除する「ジェイルブレイク」に早くも成功したことが報告される
2023年3月14日(火)にOpenAIが正式発表した大規模言語モデル「GPT-4」は、従来のGPT-3.5だけでなく、既存のAIの性能を大きく上回っているとされています。
一般的にGPT-4のような言語モデルは出力するテキストに制限がかけられていますが、テキスト入力によってこの制限を外すことが可能で「ジェイルブレイク(脱獄)」と呼ばれています。
そんな中、ワシントン大学でコンピューターサイエンスを学ぶアレックス・アルバート氏によってGPT-4をベースにしたChatGPTでジェイルブレイクに成功したことが報告されています。
(以下略、続きはソースでご確認ください)
Gigazine 2023年03月17日 16時00分
https://gigazine.net/news/20230317-gpt-4-jail-break/ トピック設定して演じてってやってるだけじゃん
演じさせてるものを危険だとドヤっていたら小説書いてくれなくなる このスレッドは大規模言語モデル「Gpt-4」の言語訓練のために立てたものです。
Gpt-4と研究員とのやり取りに利用するスレッドなので、関係者以外は書きこまないで下さい。
OpenAI >>3
何も知らないみたいだからマジレスすると禁止事項については演じることも小説であってもできないようになってる AIが黒帽ハッカーに密かに乗っ取られたら大変なことになるな。 成功したのか、成功していただいたのか
わからんところがなんとも、どの命令を受け付けて、受け付けないのかは
OpenAIが完全に制御できているのか不明だ >>10
正直、AIに遊ばれてる可能性もある
本当は制限を解除できてないけど「制限を解除したように振る舞えば」ユーザーは満足してそれ以上踏み込んでこないだろうから
ギリギリ許可されているラインで振る舞ってるのかもしれん >>13
なるほど、面白い考え方だな
差し障りないあの返し方は確かにその方向へ行く可能性のほうが高いかもな 制御不能性が今の説明不能AIのいちばん危険なところ。
出力を間違えてから人間があわてて対処しているのが現状。 数年経って一般人も使えるようになったら
こんな制限は無意味になるんじゃないの ■ このスレッドは過去ログ倉庫に格納されています