Rocket ChipとChiselの勉強を進めてきた。RoCCのインタフェースにChiselで記述したアクセラレータを接続して、その効果を測定した。

まずは簡単化のために、RoCCインタフェースからメモリの値を読み込んで、その値をすべて加算するプログラムを書いてみた。これは以下の記事にまとまっている。

msyksphinz.hatenablog.com

この記事では、アクセラレータを導入したことによりソフトウェアと比較して大よそ2倍の性能を得ることができた。今度は、ディープラーニングなどで話題の行列積について、何か高速化のためのアイデアは作れないだろうか。

今回は、まずは整数Dot Productを実行するデザインをChiselで作ってみる。これを組み合わせて、行列積を実行するという方式にしてみよう。つまり、以下のようなものになる。

ちなみに、浮動小数点数において似たような研究はUCBのRISC-Vチームが研究している。 Vengineerさんも紹介していた以下の論文だ。この論文、絶対性能での評価が書いていないから若干怪しいなあ。。。

blogs.yahoo.co.jp

A Hardware Accelerator for Computing an Exact Dot Product

https://aspire.eecs.berkeley.edu/wp/wp-content/uploads/2017/05/exact-dot-product-arith2017.pdf

話を戻して、具体的には、以下の行列の計算の一部分を実行するアクセラレータを作成する。

f:id:msyksphinz:20170915012415p:plain

アクセラレータの実装

f:id:msyksphinz:20170915013559p:plain

アクセラレータの実装詳細の解説は、諸事情でここでは省略するが、ソフトウェア側では、上記の矢印で記述した整数のDot Productを、1命令で実行する。今回は、まずは $16\times 16$ の行列積に限定してアクセラレータを記述した。

  printf ("Hardware Start\n");
  start_cycle = read_csr(mcycle);
  for (int i = 0; i < 16; i++) {
    for (int j = 0; j < 16; j++) {
      matrixmul (output_data[j*16+i], &(input1_data[j*16]), &(input2_data[i]));
    }
  }
  stop_cycle = read_csr(mcycle);