FPGA開発日記

カテゴリ別記事インデックス https://msyksphinz.github.io/github_pages , English Version https://fpgadevdiary.hatenadiary.com/

GPUアーキテクチャについての資料を読む (Digital Design & Computer Arch. 4. NVIDIAのGPU)

前のブログエントリの続き:

msyksphinz.hatenablog.com

msyksphinz.hatenablog.com

msyksphinz.hatenablog.com

引き続き、以下の資料を読んでいく。

https://safari.ethz.ch/digitaltechnik/spring2023/lib/exe/fetch.php?media=onur-ddca-2023-lecture20-gpu-beforelecture.pdf


  • GPUの例について
    • NVIDIA GeForce GTX 285 (2009年発売のもの)
      • 240 Stream processors (SIMT execution)
      • 30 cores (8 SIMD functional units per core)
図は本論文より引用
  • coreとして表現される部分の構成
    • 32スレッドのグループが命令ストリームを構成している(各グループはWarpである):同じ命令を異なるデータで実行している.
    • FGMTの方式で,最大32個のWarpがインターリーブして動作している.
    • 1024個のスレッド (=32x32) が格納可能.
図は本論文より引用
図は本論文より引用
図は本論文より引用
  • NVIDIA GPUの進化
    • 7000 Functional Units程度まで増加している.
図は本論文より引用
  • NVIDA V100 (2017年発売)
    • 5120 stream processor (SIMT execution)
    • 80 cores (64 SIMD functional units per core)
    • Tensor cores for Machine learning
図は本論文より引用
図は本論文より引用
  • Tensor Core マイクロアーキテクチャについて
    • 各Warpは2つのTensorCoreを使用する
    • 各Tensor Coreは2つの"Octets" が含まれている.
      • Tensor Coreあたり16個のSIMDユニット
      • Tensor Core あたり 4x4 行列乗算加算 ユニット
    • これまど SIMDと異なり,レジスタの値は各スレッドでプライベートではなく,Warp内で共有されている.
図は本論文より引用
  • NVIDIA A100 (2020年に発売)
    • 6912 Stream Processors (SIMT execution)
    • 108 cores (64 SIMD functional per core)
    • Tensor cores for Machine Learning
図は本論文より引用
図は本論文より引用
  • さらに 2022年には H100が発売
    • 144 cores
図は本論文より引用
図は本論文より引用
図は本論文より引用