>>370
メインメモリ流用はCudaの速度の利点がスポイルされるんで、Gefoではイマイチですね。
RadeはOpenCLの遅さのせいで、VRAM8Gでバッチ16と
メインメモリ共用のバッチ32では1.8倍遅い程度なんで、並行学習数も相まって効果的なんですが。

>>372
1学習6秒前半ってのは最速時で、調子悪いと7秒掛かりますwっが、元々CPUで試してたモンで。
っま、おかげでデータ整理の技が磨かれて、24時間も回せばLoss0.1切りまで下げられるほどに。

因みにちょっと調べたんですが、ディープラーニング界隈でのイテレーションってのは
データセット一巡で1Iterって表現になるらしく、データ数 / (1学習×Batch数) = 1イテレーション、
例えば3200データ/バッチ32=100よって、1イテレーション=100Iter(学習)ってことらしいっす。
しらんけど。