強化学習メインとはすごい
自分は機械学習については全く素人だから色々聞いてみたいことがある

麻雀の強化学習の方法なんだけど、SAC-Discrete って有効だと思う?
Mortal や Kanachan は TD 系を使ってるけども
麻雀って究極的にはポーカー AI みたいに確率的に行動選択した方がいいと考えてて、
・モデルフリー
・オフポリシー
・確率的な方策が出力される
・離散空間用の方式
で調べたら SAC-Discrete が出てきたんだけど