V100のTensor Flopsってのも8ビット整数をたたみ込んで実数で出力するだけなんで、x86でいうとわりとvpmaddubswが大量にこなせる化け物があればいい