前に開発者が上げてた動画のシステムと同じなら
話者の声を音素と高さに認識してアイボスにあてはめてるって事か。
まさに>>992が望んでたやつでは?