テキストへの変換挟まずに声の高さと音韻と声色をそのまま再現してくれればなぁ