動画と音声を分離して、音声だけエンコして
再結合じゃダメなの?