https://arxiv.org/pdf/2305.05559v1.pdf
4. 性能評価

- Sparseな要素とDenseな要素の演算
- Sparseな要素とSparseな要素の演算

本論文 Figure4 より抜粋 : 図4dは、ベクトル密度が0.03-30 %、ベクトル長が60kの場合、16ビットSSSR
カーネルがBASEカーネルの性能比較
- 3.0~7.7倍の速度向上が見られ、オペランドの密度に比例してほぼ対称的に増加することがわかる
- 同程度の密度では一般に高速化が進み、密度が乖離すると高速化は5.0×に収束する
- intersection(共通部分)がなく、1つのベクトルの非ゼロをスキャンする場合、baseは非ゼロあたり5サイクル、SSSRは1サイクル必要
- Intersection(共通部分)を処理する場合、BASEは非ゼロペアあたり18サイクル、SSSRは1.25サイクル必要
- 非ゼロ位置が正確に一致した場合、達成可能なピークスピードは14.4倍、FPU使用率は80%になる
: 図4eは、
と同じベクトルについて、BASEに対する16ビットSSSR
カーネルの速度向上を示している
: 図4fは、異なるベクトル密度における行列行あたりの平均ノンゼロ数nnzに対する、BASEに対する16ビットSSSR
カーネルの速度向上を示す
- 両引数の密度に比例して増加し、対応する密度で
の高速化に近づき、最大6.3倍まで達する
- 両引数の密度に比例して増加し、対応する密度で