AMDの次世代APU/CPU/SoCについて語ろう 281世代 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
___
\._ | 荒らし・煽り・厨房は放置が一番。
/|_| | 釣られずにスルーしましょう。
|_/\! sage進行でマターリいきますお。
★前スレ
AMDの次世代APU/CPU/SoCについて語ろう 280世代
http://egg.2ch.net/test/read.cgi/jisaku/1500803461/ ボトルネックつぶすためにチューニングする必要が出てくるときって
そんな小さい処理で済むことなんかまずなさそう
どうしてもGPGPUになっちゃいそう >>131
まぁ演算にループを使うくらいならってもんだからなぁ、SIMDって。
GPGPUは結局OSを介さないと使えないもんだし・・・
コール準備してるひまがあったら、SIMDで処理が完了しちゃうって場面もあるだろし・・・
やっぱ比較できるもんじゃないと思うけどもね。 >>132
ボトルネックになる要素が多くて使い方によっては(SMDもGPUも使わない時より)遅くなる事もあるけど、最大性能は高くてCPUのリソースを使わないので処理によっては大きな効果が見込めるのがGPGPU
大きな効果は期待できないけど、(SIMDもGPUも使わない時と比べて)少なくとも遅くなることは無いSIMD
チューニングが大変だからという理由で使われなくなるならGPGPUの方だぞ レイテンシと帯域でどれほどの差があるかだよね
でもそれは、演算性能で大体カバーできると思う
演算の並列化って遅延を隠す意味もあるし
まあ。一番の理由はGPGPUを一般化したらAMDに支配されちゃうからだろうな
だからAVX推しだし、CUDAで排除するしかない
困ったもんだ >>136
だから、その遅延を隠蔽するだけの量のデータって、何?ってことなんだよ。
正直、ゲームグラフィックくらいの規模がちょうど良い状態。
逆にCPUのSIMDがGPGPU必要ないくらい使えるってなら、すなわちDXをソフトウェアドライバで処理しちゃえばいいってことになりかねない。
CPUが8個もあるんだから、スレッド分けれるでしょ?って話は、いくらなんでも現実的ではない、ってのがCPUのSIMD命令。 >>138
思いつくのはエンコとレンダリングと動画編集かな
GPUのローカルメモリ量がネックらしいけど、それはHBCCで解消できる
後は負荷に応じてGPGPUに投げればいい
その分CPUに余裕ができるから、他の作業をやるのもいいね
暇つぶしにYoutube見たり、ネットブラウジングしたりゲームしたり、オフィスで他の作業でもいい いつになったらGPGPU対応のエンコソフト出るの
フィルタ処理の一部にGPGPU使うのはあるが、
肝心のエンコはCPUオンリーしかないのはなぜなのか >>140
CPUが一番綺麗だからだろ
CUDAエンコみたいな糞ぶち撒けた画質なんて誰が使うんだっつーの >>140
GPUは整数弱いしビデオメモリ2GBや4GBでエンコやレンダリングとか無茶言うなだから
ラデは整数そこそこだしメモリ制限なくなるから、今後は対応していくんじゃなかろうか
ゲフォはその辺クソだから一生無理 エンコードは離散コサイン、離散サインの塊だから
超越関数扱えるユニット型極端に少ないGPUには効率がわるい
まぁ専用回路あるからどうでもいい話だが つーか円盤がオワコン化したし、エンコなんて使うやつ殆どいないだろ
ネット配信がメインストリームなんだから エンコはやはり整数多用してるのがネックになるんだな >>144
ネット配信用のデータを作るんでしょうよ。
Youtuberみたいな人達が。 >>146
需要として少なすぎ
商用として作ったらエンコソフト1本で何十万とかになんぞ >>147
アクションカムで撮った動画をたくさん保存するためにエンコしたりとか、普通にあるっぽい
YouTubeにあげなかったとしても >>147
需要の多い少ないでいえばそのとおり。
だけどそれは円盤オワコンと関係なくない?
むしろ、微々とはいえ今後伸びていく気がする。 まあ、一般じゃ8コアですら使いみちはあまりないからな・・・
16コアなんてなおさらよ >>141
NVEncとかはGPGPUじゃなくてGPUのエンコ専用回路使ってるよ
逆に言うとGPUに負荷掛けないからShadowPlayのようにゲームしながらエンコできるわけだけど
ちゃんとGPGPUでプログラム動かすなら実際の速度はともかく画質はCPUと比べても劣らないはず 何がひでえってAVX付きの4コアより、付いてない8コアの方がエンコ性能高いことだな
インテルはさっさとAVX捨てて8コアをメインストリームにすべきだったわ >>151
それはCPUとGPUの分業になるだろうけどね。
レイトレースでもそうだけど、前処理として解析データをテーブル化するとか、得意だと思うよ。 >>147
4K、8Kが普及してコンテンツのデータ量増加が
ストレージ容量の進歩を追い越せば需要が… >>154
そん時はテープだろ
5インチベイで500TBから1PBぐらいは入るし >>155
ネタだとは思うが、それはちょっと遠慮したいwww >>157
それ知ってるけどもさ、容量だけ増やしたけりゃ採用すればいいって代物でしょ?しかもバックアップに。
まぁ、15年ほど前に会社のサーバーがテープ採用してたけど、3年くらいして復旧に使ったらデータとんでて、以後定期的にベリファイとらないと怖くて使えなかったよ。
容量増えたってことは、伸びとかもっとシビアなことない?一般家庭で常用できる代物なのかね。 >>158
5年経った知識は無いに等しい
この業界だと当たり前の事だと思うが? 15年か…
あれ?Core2DUOってもう出てたっけ?w >>139
エンコードはGPGPUに向かない処理の代表じゃないか
向くのはノイズリダクションやリサイズといった『エンコードと同時に行う可能性のある処理』だよ
>>141
『GPGPUだと画質が悪い』のではなく、『GPGPUだと非常に遅い』ので実用的な速度にしたらクソ画質になるが正解だ GPUがエンコードしてるのではなく
VCEって専用回路がエンコードしてるんだぞ >>164
いきなりどうしたんだ?
VCEやNVENCがGPGPUエンコードなどと言っているのは一人もいないのだが
>>140
TMPGEncの『古いバージョン』ならh.264のCUDA(GPGPU)エンコード対応しているよ
クソ画質過ぎて、今のバージョンでNVEnc対応すると同時に非対応になったけど その件につきましてはデスクトップ版RYZENAPU待ちでございますので ゲームグラフィックはまぁ現状のソフトの最適化のターゲットになってるnVが勝つのはいいとして、
今時分GPGPUの最大ユーザーっていうとDeepLearningではないかと思うけどそっちはどうなの?
主要なDeepLearningフレームワークでVegaが使えるようになるのか、そしてnVに性能で勝つことができるのか? DoTa2でプロがAIに負けたらしいから
そのうち無茶強いAI搭載のゲームが出るかもよw これからは基本AIがさして人間は予想外の変数入れる役目になるのかもな >>167
ディープラーニングで勝てるかどうか、と言うと、多分フレームワークが対応してないだろうから勝てないと思う。
今後、対応するフレームワークが出てくる可能性はあるけど。
AMDのスレッドリッパーでのプレゼン見ると
ゲーミング(x16のRXVegaを2つ、x4のSSDを1つ)
http://pc.watch.impress.co.jp/img/pcw/docs/1075/501/html/32.png.html
3DCGコンテンツ(x16のProを2つとx8のProを2つ、x4のSSDを3つ)
http://pc.watch.impress.co.jp/img/pcw/docs/1075/501/html/30.png.html
データサイエント(x8のMI25を6つ、x4のSSDを1つ)
http://pc.watch.impress.co.jp/img/pcw/docs/1075/501/html/34.png.html
多分、ゲーミングは捨て玉、ディープラーニングも見せ球で、本命はCG方面で、特にレンダーファーム。 レーン数をアピールする割にM.2NVMeのRAIDに対応してない(Intelは対応済み)とかチグハグなんだよな… オープンソースのRadeon ProRenderはOpenCLベースだからどのGPUでも動くけど
無償提供ってのが逆にトラブルが起きたときに対応で逆にネックになりそうな予感がする
ハードウェア非依存型。ご使用のコンピューターがOpenCL 1.2対応の場合、Radeon ProRenderをご利用いただけます。
http://www.amd.com/ja-jp/innovations/software-technologies/radeon-pro-technologies/radeon-prorender
https://pro.radeon.com/en-us/software/prorender/
商用GPUレンダラーはCUDAのCC2.0以降(Fermi)になってる
OctaneRender
requires a CUDA enabled NVIDIA video card. An up to date list can be found here.
OctaneRender can run on most CUDA enabled consumer video cards, instead of only on high-end Quadro cards that most other solutions and middleware require,
but it is specifically optimized to run on Kepler (GTX 6xx, GTX 7xx, GTX Titan), Fermi (GTX 4xx, GTX 5xx) and Maxwell GPUs.
Redshift Render
ビデオカード:CUDA計算能力2.0以上、VRAM 2GB以上のNVIDIAビデオカード
Thea Render
GPU: Nvidia CUDA graphics card (CUDA 6.5, Compute Capability 2.0 or higher),
FurryBall
Always use the latest drivers! (some older drivers can cause crashing of FurryBall)
NVIDIA GPU - CUDA capability 2.0 or later
NVIDIA GTX 4xx or later series
NVIDIA Quadro 4xxx or later
NVIDIA Tesla CM20xx
http://furryball.aaa-studio.eu/products/systemRequirements.html うーん、PCゲームからプロのCG、そしてAIのGPGPUは完全にnVidiaに握られっぱなしだな
どんな分野、どんな会社にせよ独占は良くないので
コンシューマゲーム機以外でも存在感を出せるようになって欲しいものだ >>175
現状は会社の規模がね、人手が足りてない感はある。
CPUとGPUで十分なソフトウェア・サポートをしようと思うと、大雑把に言って、インテル+ヌビと同等のマンパワーが必要でしょ。
まぁ、人手は金だからさ、順調に業績を延ばしていければついてくるんじゃないかな。 GPUの少量なローカルメモリで済んでる間は無理だな
HBCC使ったSSGみたいに数100GBや数TBのメモリやキャッシュが必要な用途が増えればワンチャンあり
ゲファやテスラは、直接使えるのはローカルだけで、メインメモリを使うには酷いペナルティがあるし、ストレージなんて不可能
それを無理してやりくりするのがCUDAで、それが楽なのがAMDとopenCL/ROCmの組合せ
V100は16GB、SSGは16GB+メインメモリ+2TB(SSD)、RX Vegaは8GB+メインメモリ しょせんpcieブリッジ接続のssdでは糞遅い
メリットはメインメモリ圧迫しなということだけ cudaはメインメモリ扱えるがし
nvlinkでつないだGPUのメモリも使える
radeonのようにブリッジ接続で8GB/sのSSDだけが頼りなわけじゃない >>180
テキトーなこと言ってるけど
ソースあんの? >>184
ソース出してみなって言われて出せないなら
また団子と同じ奴が現れてテキトーな事言ってるとしか思われないよ ソースもなにも、nvの製品ならnvの公式サイトで派手に宣伝してるよ。 過ちを気に病むことはない。ただ認めて、次への糧とすればいい。それが、大人の特権だ ソースはAMDと同じように動画で出してもらいたいな まあ、それが使い物になるレベルならとっくにアナウンスしてるわ
nvidiaのアナウンス
8K動画編集はAMDのSSGを使わなくても、nvidiaのグラボとAMDのスリッパでイケます! http://news.mynavi.jp/articles/2016/10/12/gtcjapan2016_unifiedmemory/002.html
デマンドページングは便利な機能であるが、オーバヘッドも大きいので、使い方には注意が必要である。
HBCCぽい動きが出来そうだけど、ハードじゃなくソフト的にやってるから遅延が大きいんだろうな >>193
XEONでもいいんじゃない?
16コアのCPUの覇権はスリッパだけどさw たったの8GB/sのSSDにアクセスしてどれだけ効果があるんですか アスペか
CUDAは糞以下なんて言ってる時点で気づくべきだった >>198
ゲフォ厨はさっさと失せろ
実際に外部メモリへのアクセスに関してはCUDAは糞なだけだ 2TB of NAND flash storage plugged into a pair of M.2 ports
つまり最大PCIe3.0の4lanでも片方向4GB/sペアで8GB/s
あくまでM.2の理論値
RAID0でもつかうのか?
それでも実速度は半分程度だろうが >Vega 10では、PCのメインメモリなどを仮想ビデオメモリとして利用できるHigh-Bandwidth Cache Controller(HBCC)という機能を新たにサポートし、この機能を利用するさいはGPUに直結されたHBM2をキャッシュメモリのようにあつかう。
>この機能はRadeon Settingから有効化できるが、将来的により多くのビデオメモリを必要とする場面で使用することを想定した機能であり、今回のテストではこの機能は使用していない。
>Radeon SettingのHBCC設定「HBCC Memory Segment」。
>標準では無効化されており、有効化するとHBCCで利用するメモリの容量を設定できるようになる
http://pc.watch.impress.co.jp/img/pcw/docs/1075/646/i02.png GPUがテラバイトのフレームバッファを扱うことができるのが強みなのだ
接続してるバスインターフェイスのどうのこうの話ではない その強みは具体的にどういう場面で活きてくるの?
8K編集かな?w 実際に8K編集で役に立ってたな
nvidiaはまた1つ引き離された訳だ 高解像度対応の需要は尽きることはないしな
実際編集は高解像度で行って使うのはダウンコンバートしたものとか当たり前になってるし pcie自体も早くなるぞ
来年にはGEN4
2019年には(いけるが知らんが)GEN5の予定
GEN5の4chでDDR4の1chと同じスピード出るし、ハナから帯域不足の前提でプログラムするしな まぁNVLINKは、どっちかってとHPC向けだし、POWERのプラットフォームで真価を発揮するものだろう。
8K編集とかに使うようなもんじゃないでしょ。 >>208
大分問題があってな
PCI-SIG握ってんの事実上intelなのよ
アレを速くすると自社の製品を喰われる他社製が出張ってくるから、なるたけ引っ張るか遅くするか
動画クリエーター周りだけ言えばアレらはXEON出したいから&今AMDとガチンコやってるから他が出て来てもらっちゃ困る
多分露骨には出来ないから引っ張ると思うよ
AMDがCPUGPU問わず色々仕込んでるのは大体コレが原因
規格周り殆ど握られてるからね、裏道探して出し抜くしか無い ソケットFM2+のA10-7870KとAM4のA12-9700で
A10にDDR3-2166、A12にDDR4-2400のメモリ積んで同一ベンチ走らせると
A10が半分以上勝つらしいけど
これってAM4マザーのインターフェイスに設計ミスとかあるんじゃないかなあ?
Ryzenのベンチでも7700Kにぼろ負けしてるし
CPUの性能をチップセット側で活かせてない気がするなあ 自作用のAPUはずっと4コアだろうな
次のXBOX買えば?
8コア版のAPUだろうし APUにメモリ直接積んでハイパーメモリCPUやってほしい 8コアですら使いみちがないのに、売れないと困るAPUで冒険なんかするわけねえ
12コアAPU、12万円として誰が買うんだそんなもん >>212
AVX絶対殺すマンと化した超低レイテンシなGPUならワンチャンあるかも
その場合は全部のモデルに載るだろうし
インテルHDより更に貧弱なFLOPSだろうけどw HBCCはIntelがOptaneでやろうとしてることの凄い版
あれは、HDDの高速化だけど、HBCCはメインメモリとSSDの高速化
NVMe SSD(5GB/s)/メインメモリ(50GB/s)→PCIe(16GB/s)→HBM2(500GB/s)
CPUのキャッシュ制御と大体一緒だから、実装は楽だろうね
ただ、CPUとGPUの違いに合わせたドライバの調整が面倒そうだけど >>217
デバドラやめて、x64にGPUコントロールの拡張命令でも追加するといいよ。 >>220
それは考えてると思うよ、APUの構造的にそれがあるのが一番いいからね
草案作りとか根回しとか大変だろうから当分先だろうけど >>222
いあ、ごめんネタだから、現時点でAMDがそれをやるほど愚かじゃないのは明白。
なぜなら、そんなことした時点でGPUの機能を変更できなくなる。
やるとしたらGPU自体が枯れて、これ以上機能の刷新も新機能も必要ないところまできてから。 >>223
AVXはAVX→AVX2→AVX512って拡張し続けてるんだけど
それ以外でも、仮想関係やセキュリティもAMDとIntelは独自に実装している
そういう前例があるから、GPGPUを標準化しても拡張はし続けていける
AMDのGPUは機能的な拡張し続けて、VegaでほぼCPUと遜色ないくらいになってる
そろそろCPUとGPUでISAの統合が出来る頃合いだと思うんだよね >>224
AVX512はインテルさえ「コスト高すぎて実装は考えていない」つってるけどね
そもそもロード/ストアユニットが128ビット×4構成のインテルでさえ、512命令来ると4基フルで
1命令しかこなせないし
128ビットのLSU×2基しかないRyzenがシングルコアのベンチで負けるのは当然として
512命令が来るとRyzenは1回で処理出来ずここで渋滞するんだよな
ていうかAVX2もRyzenではここがボトルネックになってる
AMDも妙なところでケチるよなあ 言いたいのは、x64本体に組み込むんじゃなく、AVXや仮想機能みたいな拡張機能とするってこと
その先は、更に5年後くらいにx64+AVX2+GPGPUを統合した、新x64とか作れるかもしれないかな
今時GPU内蔵CPUなんて普通だし、GPGPUもかなりCPUに近くなってるから、統合ISAは時間の問題と思う
それの先陣を切るのは、AMD64やmantleを出したAMD以外ないだろう >>224
CPUのSIMD命令は、レジスタ等への前準備は必要とは云え、単一の命令だよ。
そんなのの拡張とGPUってユニットの拡張を同列にするかね?
そもそも、ついこないだVEGAで大掛かりな仕組みの変更をしたとこじゃないか。
それとも、後方互換製のために、古くなったらほとんど使わない回路をどんどん肥大化させていくつもりかね?
沢山のコアが一斉に肥大化してくんだよ? AMDとMSとLinux勢も多分望んでそうだから、動いてそうな気はする
いい加減GPGPUの使い辛さをどうにかしたいと思ってそうだし
そうすればゲームや技術計算やディープラーニングとか今よりずっと楽に開発できるだろうね >>229
それは多分、Larrabeeが見た夢だろう。
GPUとして失敗した時点でタダの計算機になって、一般消費者向けではなくなってしまった。
ARMコアで似たような構想を抱けば、もしかしたらモダンなものになるのかもしれないね。 >>228
x64はx86を内包してるけど別に騒ぐほど肥大化してないよ
x87は切り捨てた、SSE2を標準にしたから、それ以前のMMXやSSEも捨てた
標準化するのはシェーダーモデル6とIEEE754対応とGPU仮想化全般でいい
あとはCPU-GPU間の連携用の命令くらいか ■ このスレッドは過去ログ倉庫に格納されています