フレームレート1の静止映像に音声多重化ならほぼ音声分のデータ量しか食わないはずだが