https://arxiv.org/pdf/2305.05559v1.pdf
4. 性能評価
- Sparseな要素とDenseな要素の演算
- Sparseな要素とSparseな要素の演算
- : 図4dは、ベクトル密度が0.03-30 %、ベクトル長が60kの場合、16ビットSSSR カーネルがBASEカーネルの性能比較
- 3.0~7.7倍の速度向上が見られ、オペランドの密度に比例してほぼ対称的に増加することがわかる
- 同程度の密度では一般に高速化が進み、密度が乖離すると高速化は5.0×に収束する
- intersection(共通部分)がなく、1つのベクトルの非ゼロをスキャンする場合、baseは非ゼロあたり5サイクル、SSSRは1サイクル必要
- Intersection(共通部分)を処理する場合、BASEは非ゼロペアあたり18サイクル、SSSRは1.25サイクル必要
- 非ゼロ位置が正確に一致した場合、達成可能なピークスピードは14.4倍、FPU使用率は80%になる
- : 図4eは、と同じベクトルについて、BASEに対する16ビットSSSR カーネルの速度向上を示している
- : 図4fは、異なるベクトル密度における行列行あたりの平均ノンゼロ数nnzに対する、BASEに対する16ビットSSSR カーネルの速度向上を示す
- 両引数の密度に比例して増加し、対応する密度で の高速化に近づき、最大6.3倍まで達する
- : 図4dは、ベクトル密度が0.03-30 %、ベクトル長が60kの場合、16ビットSSSR カーネルがBASEカーネルの性能比較