前のブログエントリの続き:
引き続き、以下の資料を読んでいく。
- GPUの例について
- NVIDIA GeForce GTX 285 (2009年発売のもの)
- 240 Stream processors (SIMT execution)
- 30 cores (8 SIMD functional units per core)
- NVIDIA GeForce GTX 285 (2009年発売のもの)

- coreとして表現される部分の構成
- 32スレッドのグループが命令ストリームを構成している(各グループはWarpである):同じ命令を異なるデータで実行している.
- FGMTの方式で,最大32個のWarpがインターリーブして動作している.
- 1024個のスレッド (=32x32) が格納可能.



- NVIDIA GPUの進化
- 7000 Functional Units程度まで増加している.

- NVIDA V100 (2017年発売)
- 5120 stream processor (SIMT execution)
- 80 cores (64 SIMD functional units per core)
- Tensor cores for Machine learning


- Tensor Core マイクロアーキテクチャについて
- 各Warpは2つのTensorCoreを使用する
- 各Tensor Coreは2つの"Octets" が含まれている.
- Tensor Coreあたり16個のSIMDユニット
- Tensor Core あたり 4x4 行列乗算加算 ユニット
- これまど SIMDと異なり,レジスタの値は各スレッドでプライベートではなく,Warp内で共有されている.

- NVIDIA A100 (2020年に発売)
- 6912 Stream Processors (SIMT execution)
- 108 cores (64 SIMD functional per core)
- Tensor cores for Machine Learning


- さらに 2022年には H100が発売
- 144 cores


