すごく初心者的質問になるかもしれないが、ぶっちゃけ、学習してモデルをつくるという仕組みをよく理解できていない。
いろんな角度の画像を覚えこまして、新しいはめ込む動画のもとの顔がこういう角度でこういう表情だから、data_srcのか中に顔の中で一番いいやつを探してきて、これをコラするよ(場合によっては目はこの画像で、口はこれがいいなとかパーツごとに判断して)、
ということなのか、それとも、いろんな角度の画像を勉強して、この顔のいろんな方向からの顔のデータを作って、この方向でこういう表現をしているdstの顔に、学習してできた顔のデータを再生するよということなんか。
どっちなんでしょう。
前者であれば、あくまでも張り付けるパーツの画像が必要なので、それがきれいでなければいくら学習してもうまくいかないが、後者なら、いったん顔のデータ作れさえすれば、あとはきれいな画像を作り上げてくれるということになる。
ゴミをいくら張り付けてもゴミのままになる。
そういう意味で、最初の素材選びは、いい勉強をしてらうというより、いいパーツを集めることにも影響するから最重要ということなるよね。
どっちなんでしょう?