Seiren Voice使ってみた
ベースはあくまでTTSで、文字入力と調声の補助に声を使うってだけなのね

声入力→音素・音長その他に分解→キャラクターの声に再合成

って流れかと思ってたけど、実際は

声入力→Microsoftのオンライン音声認識で文字起こし→Seiren Voiceが読みを解釈→最初に入力した音声を参考に合成

って感じ

文字起こしの段階で誤認識したらそもそもの台詞が変わるし、文字起こしをSeiren Voiceが誤読することも多い
(「こんにちは」→「今日は」→「きょおわ」など)
だから音声入力後にテキストや読みを訂正することになる
期待してたよりはちょっとまどろっこしいかな

とはいえボイロの調声とかに比べたら遥かに自由で自然な物が作れる 慣れは要るけど
長い文章は色々変になりやすいので短めに区切るのが良さそう