RISC-VにおけるRVWMOの仕様について読み直す (3. Preserved Program Order / Memory Model Axioms)

RISC-VにおけるRVWMOのメモリモデルについて、仕様書を読み直すことにした。 ChatGPTの力を借りながら、要点をまとめていく。保存されたプログラム順序プログラムの任意の実行におけるグローバルメモリのアクセス順序は、各HARTのプログラム順序の一部を尊…

2024-02-03

MX: Enhancing RISC-V's Vector ISA for Ultra-Low Overhead, Energy-Efficient Matrix Multiplication の論文を読む

MX: Enhancing RISC-V's Vector ISA for Ultra-Low Overhead, Energy-Efficient Matrix Multiplication 本論文において、Dense Matrix Multiplication（MatMul）は、線形代数、デジタル信号処理（DSP）、グラフィックス、及び機械学習など、多岐にわたる計算…

2024-02-02

RISC-VにおけるRVWMOの仕様について読み直す (2. 構文依存性の定義)

RISC-VにおけるRVWMOのメモリモデルについて、仕様書を読み直すことにした。 ChatGPTの力を借りながら、要点をまとめていく。 Syntactic Dependencies RVWMOメモリモデルの定義は、構文依存性の概念に部分的に基づいており、以下のように定義されている：レ…

2024-02-01

RISC-VにおけるRVWMOの仕様について読み直す (1. RVWMOの概要)

RISC-VにおけるRVWMOのメモリモデルについて、仕様書を読み直すことにした。 ChatGPTの力を借りながら、要点をまとめていく。本章においては、RISC-Vのメモリ一貫性モデルに関する定義を述べる。メモリ一貫性モデル: メモリのロードが返す値を規定する規則…

2024-01-31

自作CPUの面積削減検討 (3. ROBの面積削減効果)

ROBの削減効果の確認。デバッグして一応テストパタンが通るようになってきたので、Vivadoで論理合成してその効果を確認していきたい。 ROB面積削減適用前 +-------------------------+----------------------------+------------+------------+---------+---…

2024-01-30

自作CPUの面積削減検討 (2. ROBの面積削減検討)

自作CPUの面積が結構大きいので、面積削減を検討していきたい。次に、ROBの削減について考えていきたい。現状、ROBの面積が非常に大きくなってしまっているのを確認している。明らかに問題なのは、例外を扱う論理だ。 ROBの各エントリで律儀に例外情報と…

2024-01-29

Vivadoのファイルリスト読み込み順序によるエラーの対処方法

例えば以下の2つのVerilogファイルを持ったプロジェクトを考える。 package.sv package normal_package; localparam SIZE = 32; endpackage // normal_package module2.sv module module2 import normal_package::*; ( input logic clk, input logic reset, …

2024-01-28

自作CPUの面積削減検討 (1. STQのフォワーディングパスの削減検討)

自作CPUの面積が結構大きいので、面積削減を検討していきたい。まずはStore Queue(STQ)から。いろいろ見ていると、フォワーディングパスからストアデータの取得のための判定論理が大きいようだ。 STQは、ストア命令のアドレスとデータを保持して、データを…

2024-01-27

「How to Design ISA」を読む

SNS界隈で少し話題になっていた記事、「How to Design ISA」を読んでみた。 https://queue.acm.org/detail.cfm?id=3639445 要点を以下にまとめてみた。 ISAの役割と重要性: ISAはコンパイラとマイクロアーキテクチャ間の「共通言語」であり、コンパイラの中…

2024-01-26

NaxRiscvのVivado論理合成を試行する

ちょっと気になって、NaxRiscvの面積解析を行った。結構小さくまとまっている。どうやって作っているのかな？ msyksphinz.hatenablog.com

2024-01-25

自作CPUにベクトル命令を追加する実装検討(45. ベクトルパイプラインのまとめ)

ベクトル演算システムの構造をまとめておこうと思う。 1. システムの全体構成ベクトル演算システムは、主にベクトル演算側とベクトルLSU側の二つの部分に分類される。フロントエンド部分では、スカラ演算機能にベクトル用のリネームユニットなどを追加し、…

2024-01-24

自作CPUにベクトル命令を追加する実装検討(44. AXPYベンチマークの改善)

前回、ベンチマークのためにAXPYを動かした。ハザードが発生しても、投機実行を継続するためにuopを生成し続けるポリシを採用すると、MSHRへの割り当て以外の時にも長いハザードが発生してしまい、結果的に性能が大きく落ちていた。 ISS CYCLE is updated t…

2024-01-23

自作CPUにベクトル命令を追加する実装検討(43. AXPYベンチマークを動かす)

ベンチマーキングのために、RISC-Vのベクトル命令で構成されたAXPYを動作させてみることにする。前回の実行では、各イタレーションで、かなりの空きサイクルがある。MSHRの空きも大きい。やはりもうちょっとアグレッシブにMSHRの割り当てを行って、可能な限…

2024-01-22

自作CPUにベクトル命令を追加する実装検討(42. AXPYベンチマークを動かす)

ベンチマーキングのために、RISC-Vのベクトル命令で構成されたAXPYを動作させてみることにする。 #include "vector_defines_m8.h" void axpy_intrinsics(double a, double *dx, double *dy, int n) { int i; long gvl = _MM_VSETVLI(e64, n); //PLCT // _MMR…

2024-01-21

自作CPUにベクトル命令を追加する実装検討(41. リプレイキューとベクトルuopsの考え直し)

実装の考え直しをして、Uop Generatorを移動して、アドレス生成の調整を行う。 1uop分しかReplay Queueには格納されないので、再度パイプラインに流すときのアドレスの調整を行う必要がある。通常は、最初のアドレスがrs1+0でそれをベースにaddress generat…

2024-01-20

自作CPUにベクトル命令を追加する実装検討(40. リプレイキューとベクトルuopsの考え直し)

ベクトル命令の実装検討、リプレイキューの構造について考え直す。ベクトル命令は1命令で複数のuopに分解されるが、一度ハザードが発生してそれ以降のuopをすべてリプレイキューに格納すると、必要なリプレイキューの大きさが非常に大きくなってしまう。そ…

2024-01-19

自作CPUにベクトル命令を追加する実装検討 (39. Fixed-Pointベクトル命令セットについて考える)

RISC-VのRVVにはFixed-Point命令セットが含まれており、完全にRVV1.0を名乗るためにはこれらもサポートしなければならない。 12. Vector Fixed-Point Arithmetic Instructions 12.1. Vector Single-Width Saturating Add and Subtract 12.2. Vector Single-W…

2024-01-18

自作CPUのベクトルLSUパイプラインのまとめ(2. マスクの作り方)

RISC-Vのベクトル・パイプラインには、実際には演算が適用されない領域がある。それが、 Prestart Region Masked Element Tail Region というものだ。PrestartはVSTARTよりも小さな値（要するに、ベクトル命令がリスタートするときの最初の要素） Masked Ele…

2024-01-15

自作CPUにベクトル命令を追加する実装検討 (38. Widening / Narrowingについて考えを巡らせる)

RISC-Vのベクトル命令には、浮動小数点におけるWideningとNarrowingというものがある。 Wideningは、浮動小数点の演算実行時に、データ型を拡張して計算するものであり、一方でNarrowingは、データ型を縮小して計算する。例えば、SEW=32(FP32)ならば、演算…

2024-01-14

自作CPUのベクトルLSUパイプラインのまとめ(1. LSUパイプラインの概要)

ベクトルLSUのパイプラインは、大まかに以下のステージによって実行される。 ex0: 命令キューからの命令発行。命令詳細デコード。アドレス計算のためのレジスタアクセス。 ex1: ベクトル演算モードによるアドレス生成。TLBへのアクセスによる物理アドレスへ…

2024-01-13

自作CPUにベクトル命令を追加する実装検討 (37. riscv-vector-testsのリグレッション結果確認)

ベクトル命令のテストパタンriscv-vector-testsでvadd.viに属するテストパタンがすべてPASSできるようになったので、とりあえず手持ちのテストパタンを全部流してみた。実行したのは878個のriscv-vector-testsだ。それぞれの命令についてテストするもので、…

2024-01-12

自作CPUにシンプルなデータプリフェッチャを実装する (2. 性能向上の確認)

前回のデータ・プリフェッチャで性能が向上しない問題。いろいろと解析した。 1つは、プリフェッチ生成時のバンド幅の問題。プリフェッチの生成により複数のプリフェッチ・リクエストが生成される場合、そこで前方のパイプラインが停止してしまってはならな…

2024-01-11

自作CPUにベクトル命令を追加する実装検討 (36. vadd.viの確認)

ベクトル命令のデバッグで面倒くさいのは、複数のレジスタへの書き込みが発生したときの対処だ。 LMUL>1の時に、複数のベクトルレジスタの検証が行えるように環境を変更しよう。 void step_spike(long long rtl_time, long long rtl_pc, int rtl_priv, long …

2024-01-10

自作CPUにベクトル命令を追加する実装検討 (35. vadd.viの確認)

順序違反と、LMUL>1の対応を実装して、どうにか最初のテストパタンvadd.viのPASSに成功した。 // vadd.vi-0 MW4(0x000000008003c000)<=0000000000000001 322930 : 41349 : PC=[000000008000003a] (M,11,01) 0003cf17 auipc t5, 0x3c GPR[30](26) <= 00000000…

2024-01-09

自作CPUにシンプルなデータプリフェッチャを実装する

いろいろ勉強したCPUのデータプリフェッチャについて、理解を深めるために自作CPUにデータプリフェッチャを実装してみることにした。まずは簡単なConstant Strideのプリフェッチだ。 LSUのパイプラインが1つ以上あるので、トレーニングテーブルの更新はその…

2024-01-08

自作CPUにベクトル命令を追加する実装検討 (34. スカラ・ロード命令の順序違反検出の実装)

前回の続き。マイクロコードを変更して再実験を行う。今回の再実験で考え直さなければならないのは以下の通りだった。テストケースを動かすためには、アウト・オブ・オーダ実行のメモリ・アクセスの順序入れ替えを考慮しなければならない。これまではスカ…

2024-01-07

HAIR: Halving the Area of the Integer Register File with Odd/Even Bankingを読む(2. パリティの構造)

論文

レジスタ・ファイルのサイズを削減するための手法の論文「HAIR」を読んでいる。その内容を簡単にまとめようと思う。もうちょっとパリティの構造について例を考えながら考察したいと思う。例えば、以下のような命令のシーケンスを考える。 ld x10, 0(x11) a…

2024-01-06

自作CPUにベクトル命令を追加する実装検討 (33. LMUL>1の対応考え直し)

前回の続き。マイクロコードを変更して再実験を行う。今回の再実験で考え直さなければならないのは以下の通りだった。 LMULを命令情報として追加して、最後の命令であればROBに命令終了通知を出す。 vsetvl命令がLMUL_CHANGE例外を出すとき、VSEWとかVLMULの…

2024-01-05

Qualcomm等のヨーロッパ企業が合同でRISC-Vをベースとするチップ設計会社 "Quintauris"

Qualcomm等のヨーロッパ企業が合同でRISC-Vをベースとするチップ設計会社を設立するアナウンス、具体的な会社のウェブサイトが作られたようだった。 www.quintauris.eu プレイヤーは明らかに自動車向けであり、それも下記のウェブサイトの中に明記されている…

2024-01-04

自作CPUのOoO発行の様子を計測するための仕組みの作成 (2. 各コンフィグレーションでの統計情報の取得)

前回の続き。もうちょっと修正して、統計情報がきちんと出るようにした。 alu[0] 53 / 245, lsu[0] 81 / 269, bru 66 / 207, csu 0 / 0, fpu[0] 0 / 0, 200 / 721 = 0.277 alu[0] 31 / 289, lsu[0] 59 / 228, bru 57 / 229, csu 0 / 0, fpu[0] 0 / 0, 147 / …

FPGA開発日記

カテゴリ別記事インデックス https://msyksphinz.github.io/github_pages , English Version https://fpgadevdiary.hatenadiary.com/