tverは普通に動画と音声両方別々に落としてmuxすればいいだけでは?
ffmpegの引数に動画と音声両方書きゃいいだけなのに