ゆっくりの合成音声は動画の中身問わずアウト
VOICEROIDだろうが肉声だろうが紙芝居はアウト

でアウトのコースが別々にあるってことじゃないの?
だから、動画の中身は動いてるのにゆっくりでアウトになったならそれはVOICEROIDとかにすれば当面は解決しそうだし
逆に紙芝居ゆっくりでアウトになったら声をVOICEROIDにしても紙芝居の部分でアウト判定くらう、みたいな