FPGA開発日記

カテゴリ別記事インデックス https://msyksphinz.github.io/github_pages , English Version https://fpgadevdiary.hatenadiary.com/

Kriste Asanovic教授のVector Phd Paper輪読メモ (5. メモリ性能)

people.eecs.berkeley.edu

2. 背景と動機 (続き)

2.5 メモリシステム

演算スループットと十分なメモリシステムの帯域のバランスを取ることが重要
2.5.1 STREAMベンチマークにより、スーパスカラマイクロプロセッサはメモリ帯域幅を非効率に使用していることを示す。
2.5.2 DRAMの進歩
2.5.3 メインメモリを同じダイに移動した場合の議論

2.5.1 STREAMベンチマーク

STREAMベンチマークは、4つのFORTRAN カーネルを実行する
表2.3 マルチプロセッササーバ、2つの並列ベクトルプロセッサシステム
- 3列目：CPUのピークデータピン帯域
- 4列目：STREAMベンチマークの1つのカーネルで、指定された数のCPUをすべて並列に使用した場合の最大集約アプリケーションのメモリ帯域幅
- DigitalとSGIはWrite Allocateポリシーのデータキャッシュなので、ベクトルデータの書き込みの前にキャッシュへの読み込みの必要がある→メモリトラフィックが増加
- 5列目：単一CPUでの測定。全体のバンド幅と単一CPUでのバンド幅の比率は11.2~16.5%の間で推移する
  - つまり、単一CPUではシステム全体のバンド幅を活用することができない
  - J90の場合は、1600MB/sのピークメモリを実現できる
  - J90の場合は、最大データピンバンド幅を、単一CPUで確保できる

システム	CPU	単一CPUにおけるデータピンのバンド幅 (MB/s)	STREAMの最大集計バンド幅 (MB/s)	単一CPUにおける最大STREAMバンド幅(MB/s)
Digital 8400	8x300MHz Alpha 21164	1200	978.8	198.3
SGI PowerChallenge	8x75MHz MIPS R8000	1200	749.3	139.9
Sun UE 6000 (VIS assembly code)	16x167MHz UltraSPARC	2672	2551.0	366.8
Cray J916	8x100MHz J90	1600	10274.4	1441.7
Cray C916	16x240MGHz C90	11520	105497.0	9500.7

msyksphinz.hatenablog.com

msyksphinz.hatenablog.com

msyksphinz.hatenablog.com

msyksphinz.hatenablog.com

ランキング参加中

テクノロジー