因みに、OpenCLってのは構造的にCUDAの4.5倍ほど遅い。
中間ソースの随時コンパイルが発生するから。
但しこれはDFL1.0での比較で、2.0ではOpenCL考慮不要になったことで、もっと速い。
尚、DFL1.0でも最終版は素のH/DF/lea(しか試してない)だと、コンバータでブレが発生するんで、
抽出は1.0最終版(精度が高いが遅い)、Trainとコンバートは12月版がオススメ。

あと初心者でRadeあるんなら、数千円のRX470だとめっちゃ遅いが8GB+メインメモリ全部使えるんで
128系だとBatch32以上で走る。きっちり整理した素材(SRC/DST共に3000枚程度)なら
一晩で0.1まで下がるんで、充分実用になるよ。

今7万枚のをコンバート中なんで、ちょっと書いてみました。