米OpenAIは12月7日(現地時間)、ChatGPTでのGPT-4のパフォーマンスが低下している(lazier)というユーザーからのフィードバックがここ数カ月増えていることを認め、「修正を検討中」だとX(旧Twitter)の公式アカウントにポストした。

 「モデルの動作は予測できない場合がある」としている。

特にコード生成での問題が増えており、11月末にはOpenAIでAPIのプロダクトマネジャーを務めるオーウェン・キャンベル-ムーア氏が苦情ポストに対し、「これはバグで、現在修正中です」とリプライしていた。

 OpenAIは翌8日、状況を説明するポストを連投した。いわく、「チャットモデルのトレーニングは物理的な製造プロセスとは異なり、同じデータセットを使っても、異なるトレーニングを実行すると、性格や表現方法、拒否行動、評価性能、さらには政治的偏見さえも著しく異なるモデルが生成される可能性がある」。

 そのため、新しいモデルをリリースする際には、オフラインの評価指標とオンラインのA/Bテストの両方でテストし、その後実際のユーザーにとってモデルが改善されているかどうかをデータに基づいて決定する。

 このプロセスは、「複数の人間による職人技のような作業」だとOpenAIは説明している。
https://www.itmedia.co.jp/news/articles/2312/10/news059.html