>>550
違うな

16wayのSIMDユニットが1つとスカラユニットが1つというのが最小単元だ
それを3個か6個か12個かは知らないがおそらく3の倍数で一まとめにしたコアがあり
さらにそのコアが何個かあって合計768sp+48スカラユニットという構成のGPUだな

その証拠にFP16がFP32の2倍にはなってない
パックドFP16演算というのはSIMDを応用した実装形態になっていて
プレディケーションマスクによる個別分岐に対応出来ない少bit幅のSIMD処理というのが実態
つまり768spと48個のスカラユニットが585MHzでFP16演算を行うと
SIMDが768 x 0.585 x 2(積和) x 2(パックドFP16)で1791.2GFLOPS、
スカラが48 x 0.585 x 2(積和)で56.2GFLOPS、合計で1853.3GFLOPSと発表通りの数値になり計算が合う

ちなみにPCのGPUでもスカラユニットは搭載されてるが現在では演算能力としてカウントしていない
XB1にも各CUに一基ずつのスカラユニットがあり合計12基、それを加えて計算すれば
(768 + 12) x 0.853 x 2で正確に言えば1330.7GFLOPSだ