繰り返しになりますが、
x秒の動画があって、
音声の開始を1秒遅延させたとします。
すると、音声の後ろに1秒だけ無駄なデータが出てきます。
これを削除するためには、元の動画の再生時間であるx秒を取得し、
atrimを使って、後ろをカットする必要があります。

startPTSって
入力したストリームの開始時のPTS時間

のことだと思いますが、
これを見て何をしることができますか?