大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか？ [すらいむ★]

**名無しのひみつ** · 2025/03/27(木) 06:06:16.37

＞「注目すべきはLVLMの性能が理論的に最適なナビゲーションを大きく下回っていることです。これは、マルチモーダルな
情報理解、空間推論、複雑な長期的計画下での意思決定における重要な限界を露呈しています」と述べ、
まだLVLMの地図読み取り能力は人間に追いついていないとの見解を示しました。

やっぱり強化学習とかでサポートしないとダメか？