people.eecs.berkeley.edu
2. 背景と動機 (続き)
2.5 メモリシステム
- 演算スループットと十分なメモリシステムの帯域のバランスを取ることが重要
- 2.5.1 STREAMベンチマークにより、スーパスカラマイクロプロセッサはメモリ帯域幅を非効率に使用していることを示す。
- 2.5.2 DRAMの進歩
- 2.5.3 メインメモリを同じダイに移動した場合の議論
- STREAMベンチマークは、4つのFORTRANカーネルを実行する
- 表2.3 マルチプロセッササーバ、2つの並列ベクトルプロセッサシステム
- 3列目:CPUのピークデータピン帯域
- 4列目:STREAMベンチマークの1つのカーネルで、指定された数のCPUをすべて並列に使用した場合の最大集約アプリケーションのメモリ帯域幅
- DigitalとSGIはWrite Allocateポリシーのデータキャッシュなので、ベクトルデータの書き込みの前にキャッシュへの読み込みの必要がある→メモリトラフィックが増加
- 5列目:単一CPUでの測定。全体のバンド幅と単一CPUでのバンド幅の比率は11.2~16.5%の間で推移する
- つまり、単一CPUではシステム全体のバンド幅を活用することができない
- J90の場合は、1600MB/sのピークメモリを実現できる
- J90の場合は、最大データピンバンド幅を、単一CPUで確保できる
システム |
CPU |
単一CPUにおけるデータピンのバンド幅 (MB/s) |
STREAMの最大集計バンド幅 (MB/s) |
単一CPUにおける最大STREAMバンド幅(MB/s) |
Digital 8400 |
8x300MHz Alpha 21164 |
1200 |
978.8 |
198.3 |
SGI PowerChallenge |
8x75MHz MIPS R8000 |
1200 |
749.3 |
139.9 |
Sun UE 6000 (VIS assembly code) |
16x167MHz UltraSPARC |
2672 |
2551.0 |
366.8 |
Cray J916 |
8x100MHz J90 |
1600 |
10274.4 |
1441.7 |
Cray C916 |
16x240MGHz C90 |
11520 |
105497.0 |
9500.7 |
msyksphinz.hatenablog.com
msyksphinz.hatenablog.com
msyksphinz.hatenablog.com
msyksphinz.hatenablog.com