AI歌声合成ソフト『NEUTRINO』

**名無しサンプリング＠48kHz** · 2020/05/07(木) 02:54:17.03

根拠は>>214-217に書かれてるね

NEUTRINOの歌声合成部が次の2つからなるとして
S: 短音の波形合成
C: 短音(S)をつなぎ合わせる歌声合成

FFNN ARによる合成・比較・修正は
・現状では　上記SとCの結果全体に対して行われると推定されていて、それを関数的に表記すると:
　AR(C(S))　　　[Sの結果からCを計算しAR処理]

・改善案は　S単体のAR処理も追加する事で精度が上がるという話で、それを関数的に表記すると:
　AR( C( AR(S) ) )　[SをAR処理し、その中間的結果からCを計算しAR処理]

AR処理を二段階に分ける事で、(教師信号に推定値を近付ける)最適化処理の自由度が上がり精度向上が期待されるのは判る。
ところで「再帰型で行う」(>>240)とは言うものの、CのAR処理各ループの度に、その内側でSのAR処理を再計算する必要はあるのかな？
平たく言うと、つなぎ方に関する最適化ループで、短音の波形がおかしいからうまくつながらないんだから直せ、という処理はあり得るのかな？