FPGA開発日記

カテゴリ別記事インデックス https://msyksphinz.github.io/github_pages , English Version https://fpgadevdiary.hatenadiary.com/

Kriste Asanovic教授のVector Phd Paper輪読メモ (5. メモリ性能)

people.eecs.berkeley.edu

2. 背景と動機 (続き)

2.5 メモリシステム

  • 演算スループットと十分なメモリシステムの帯域のバランスを取ることが重要
  • 2.5.1 STREAMベンチマークにより、スーパスカラマイクロプロセッサはメモリ帯域幅を非効率に使用していることを示す。
  • 2.5.2 DRAMの進歩
  • 2.5.3 メインメモリを同じダイに移動した場合の議論

2.5.1 STREAMベンチマーク

  • STREAMベンチマークは、4つのFORTRANカーネルを実行する
  • 表2.3 マルチプロセッササーバ、2つの並列ベクトルプロセッサシステム
    • 3列目:CPUのピークデータピン帯域
    • 4列目:STREAMベンチマークの1つのカーネルで、指定された数のCPUをすべて並列に使用した場合の最大集約アプリケーションのメモリ帯域幅
    • DigitalとSGIはWrite Allocateポリシーのデータキャッシュなので、ベクトルデータの書き込みの前にキャッシュへの読み込みの必要がある→メモリトラフィックが増加
    • 5列目:単一CPUでの測定。全体のバンド幅と単一CPUでのバンド幅の比率は11.2~16.5%の間で推移する
      • つまり、単一CPUではシステム全体のバンド幅を活用することができない
      • J90の場合は、1600MB/sのピークメモリを実現できる
      • J90の場合は、最大データピンバンド幅を、単一CPUで確保できる
システム CPU 単一CPUにおけるデータピンのバンド幅 (MB/s) STREAMの最大集計バンド幅 (MB/s) 単一CPUにおける最大STREAMバンド幅(MB/s)
Digital 8400 8x300MHz Alpha 21164 1200 978.8 198.3
SGI PowerChallenge 8x75MHz MIPS R8000 1200 749.3 139.9
Sun UE 6000 (VIS assembly code) 16x167MHz UltraSPARC 2672 2551.0 366.8
Cray J916 8x100MHz J90 1600 10274.4 1441.7
Cray C916 16x240MGHz C90 11520 105497.0 9500.7

msyksphinz.hatenablog.com

msyksphinz.hatenablog.com

msyksphinz.hatenablog.com

msyksphinz.hatenablog.com