リアルタイムで変化しない出力された音声部分だけの利用であれば
音声データをソフトで編集した方が楽だと思う。
無音の追加は簡単だしフリーソフトでも1/1000単位で設定できるから。
読み上げに使いたいとかなら無理だけど。
だけど、質問して間をあけて答えられないと回答発声なんて使い方ありそうだけどね。
対応してないのかな。