根拠は>>214-217に書かれてるね

NEUTRINOの歌声合成部が次の2つからなるとして
S: 短音の波形合成
C: 短音(S)をつなぎ合わせる歌声合成

FFNN ARによる合成・比較・修正は
・現状では 上記SとCの結果全体に対して行われると推定されていて、それを関数的に表記すると:
 AR(C(S))   [Sの結果からCを計算しAR処理]

・改善案は S単体のAR処理も追加する事で精度が上がるという話で、それを関数的に表記すると:
 AR( C( AR(S) ) ) [SをAR処理し、その中間的結果からCを計算しAR処理]

AR処理を二段階に分ける事で、(教師信号に推定値を近付ける)最適化処理の自由度が上がり精度向上が期待されるのは判る。
ところで「再帰型で行う」(>>240)とは言うものの、CのAR処理各ループの度に、その内側でSのAR処理を再計算する必要はあるのかな?
平たく言うと、つなぎ方に関する最適化ループで、短音の波形がおかしいからうまくつながらないんだから直せ、という処理はあり得るのかな?