人の声だけを抜き出す処理が重いからリアルタイム処理できないのでは
最初から声とそれ以外を分けて入力することができないのならリアルタイムを諦めるしかないのでは?
というか、ホントにリアルタイム処理しなきゃいけないの?