FPGA開発日記

カテゴリ別記事インデックス https://msyksphinz.github.io/github_pages , English Version https://fpgadevdiary.hatenadiary.com/

「Chiselで始めるデジタル回路設計」を献本いただきました

RISC-V Day Tokyo 2021 Autumnで配布されたChisel本、「Chiselで始めるデジタル回路設計」を献本いただきました。 RISC-V Day Tokyo幹事団の皆様、ありがとうございます。 本書の翻訳の進捗については私は全く関わっていないのですが、Slack上で議論が行われ…

自作RISC-V CPUコア実装(LDQ/STQ間のフラッシュインタフェースの確認)

自作CPUの実装、ロードストア命令の物理アドレスが決まらないうえでのハザードが性能ボトルネックになっているのを見た。 次に検討するのは、LDQ/STQの最適化だ。以前の記事で説明したとおり、LDQとSTQの間でインタフェースを作成し、STQからのパイプライン…

自作RISC-V CPUコア実装(LDQ/STQ間のフラッシュインタフェースの実装)

自作CPUの実装、ロードストア命令の物理アドレスが決まらないうえでのハザードが性能ボトルネックになっているのを見た。 次に検討するのは、LDQ/STQの最適化だ。以前の記事で説明したとおり、LDQとSTQの間でインタフェースを作成し、STQからのパイプライン…

「はてなブロガーに10の質問」で振り返る「FPGA開発日記」の6年間

はてなブログ10周年特別お題「はてなブロガーに10の質問」 これははてなブログの企画です。別に記念日でも何でもありませんが、せっかくなので乗っかることにしました。 FPGA開発日記は2015年からおおよそ6年間続いています。10の質問に答えることでこの6年…

RISC-VのePMP(PMP Enhancements)仕様について概観する

RISC-VのPrivileged仕様Version 1.12 ではePMPレジスタ群(PMP Enhancements)についての仕様が検討されている。 これについて調査してみよう。 仕様書は以下に置いてある。誰でもダウンロードできる。 https://raw.githubusercontent.com/riscv/riscv-tee/mai…

RISC-VのCMO(Cache Management Operation) 仕様について概観する

RISC-VのPrivileged仕様Version 1.12 ではCMO命令群(Cache Management Operation)についての仕様が検討されている。 これについて調査してみよう。 仕様書は以下に置いてある。誰でもダウンロードできる。 github.com キャッシュ操作命令については以下の3種…

自作RISC-V CPUコア実装(データキャッシュバンク化の効果)

自作CPUの実装、ロードストア命令のバンク化を実現した結果分岐予測の性能ボトルネックが明らかになった。 性能ボトルネックになっているのは、s0ステージで命令フェッチ、s2ステージで分岐先を予測とということで合計2サイクル分岐予測に必要だったため、命…

自作RISC-V CPUコア実装(データキャッシュバンク化の効果)

自作CPUの性能向上のために、これまで単一バンクだったデータキャッシュを作り変えてみよう。 バンク化の効果を確かめる。以下のようなプログラムを作ってLSUパイプラインの2つから別のバンクにアクセスをかけ、コンフリクトが発生するかどうかを確認する。 …

自作RISC-V CPUコア実装(データキャッシュバンク化)

自作CPUの性能向上のために、これまで単一バンクだったデータキャッシュを作り変えてみよう。 一般的に高性能プロセッサでは複数のLSUパイプラインが同時にデータキャッシュにアクセスする。しかしSRAMは一般的に1ポートしか読み込みポートが存在しないので…

CPUのメモリアクセス命令投機実行の資料を読む (実装の検討)

前回読んだ資料を基に、自作CPUのLSUを作り変えてみようと思う。 EECS 470 Lecture 12 Memory Speculation https://web.eecs.umich.edu/~twenisch/470_F07/lectures/12.pdf 現時点で私の自作CPUはLDQとSTQが別々に実装されているが、LDQはパイプライン実行時…

CPUのメモリアクセス命令投機実行の資料を読む

ある程度頭に入っているつもりだが、CPUにおけるアウトオブオーダ実行でのメモリアクセス命令の取り扱いについて確認する。 EECS 470 Lecture 12 Memory Speculation https://web.eecs.umich.edu/~twenisch/470_F07/lectures/12.pdf 動的にメモリ操作の順序…

SystemVerilogでのqueue arrayにおけるsortの勉強 (と、性能評価用のレイテンシ測定機能実装)

性能評価用に各命令のレイテンシを測りたいのだけれども、最終的な出力ではレイテンシが大きい順番に命令をソートして出力したい。 DPIを使用すれば上手く行きそうだがDPIを使うこと自体が面倒くさい。なんかSystemVerilogで良い機能無いかなーと探していた…

自作RISC-V OoOコアの分岐予測性能解析 (RASの実装改善)

分岐予測は設計経験がないうえにいろいろ試行錯誤しながら作っているのだが、なかなか性能が伸びない。 RASの実装についていろいろ考えなおして、やっとこさある程度安定して動きそうな構成を見つけてきた。 Dhrystoneはまだ完走していないが、殆ど完走でき…

Universal Hardware Data Model (UHDM) に関する情報を調べる

UHDMというのは、ハードウェアを表現するためのデータモデルで、YAML形式で表現されている。 エコシステム全体でSystemVerilogをサポートするための共通オブジェクトフォーマットとして、UHDMが定義されており、このための論文を読んでみることにした。 体裁…

Universal Hardware Data Model (UHDM) に関する情報を調べる

UHDMというのは、ハードウェアを表現するためのデータモデルで、YAML形式で表現されている。 エコシステム全体でSystemVerilogをサポートするための共通オブジェクトフォーマットとして、UHDMが定義されており、このための論文を読んでみることにした。 体裁…

BOOMのFetch Target Queue (FTQ)の役割について考える

https://docs.boom-core.org/en/latest/sections/instruction-fetch-stage.html より引用 自作RISC-Vコアのテストをいろいろやっていく中で、あれ?これどうやって実現すればいいんだろう、というのがある。 今引っかかっているのは、RASからの回復(1日に1時…

MICRO 2021の論文を読む (Software Defined Vector (2))

MICRO 2021 の論文が Free Access になっているので、興味のあるものを読んでいくことにした。 Software-Defined Vectorの続き。メモリアクセスを頑張っているようだが、ここまで分散させているとちゃんとコンシステンシが取れるのか不思議に思えてくる。 ht…

MICRO 2021の論文を読む (Software Defined Vector (1))

MICRO 2021 の論文が Free Access になっているので、興味のあるものを読んでいくことにした。 最初はSoftware-Defined Vector から。読んでいると、これは中規模なDynamically Reconfigurable Processorな気がしてきた。タイルの規模が大きいけど、やりたい…

T-Head(Alibaba)のRISC-Vコアデザインの試行 (3. シミュレーション動作)

アリババのRISC-Vコアデザインのオープンソース化があった。中身を見てみるとビルドスクリプトにも思いっきりT-Headって書いてあるのでT-Headでいいでしょう。 一応Coremarkのコンパイルは上手く行っているみたいで、シミュレーションを流し直している。 し…

T-Head(Alibaba)のRISC-Vコアデザインの試行 (2. Coremarkコンパイルエラーの修正)

アリババのRISC-Vコアデザインのオープンソース化があった。中身を見てみるとビルドスクリプトにも思いっきりT-Headって書いてあるのでT-Headでいいでしょう。 T-HeadのGCCを取ってくるのは面倒くさいので、crt0とGCCのオプションをいじって無理よりCoremark…

T-Head(Alibaba)のRISC-Vコアデザインの試行

アリババのRISC-Vコアデザインのオープンソース化があった。中身を見てみるとビルドスクリプトにも思いっきりT-Headって書いてあるのでT-Headでいいでしょう。 初期のcloneしたデザインからいくつかコメントアウトとPATHの追加削除を行っている。なんでcshの…

SystemVerilog の Streaming演算について勉強 (Verilatorでの生成結果)

SystemVerilogのStream演算について、念のためVerilatorでどのように生成されているのか確認しておこうと思った。 まず、簡単な構成として以下のようなStream演算をコンパイルしてみた。 initial begin static bit [7:0] value_a = 8'h8C; static bit [7:0] …

SystemVerilog の Streaming演算について勉強

SystemVerilogのStreaming演算について、あまり良く知らなかったのでいろいろ勉強しようと思った。 Streaming演算では、任意のサイズでのビット列の反転ができるらしい。以下のサイトが参考になる。 https://www.amiq.com/consulting/2017/05/29/how-to-pack…

GTKWaveとVerilatorはSystemVerilogのunion型をどのように扱っているのか

ふと気になって、SystemVerilogのunion型をどのように扱っているのか調査しようと思った。現在私のデザインではunion型は使っていないけれども、今後使うことになるとデバッグ時にGTKWaveで波形を観察することになる。GTKWaveがどのようにunion型を扱ってい…

IBM z15の分岐予測器の論文を読む

www.computer.org ISCAの上記の論文を読む。現在は入手不可能になっているが、ISCAの時は特別に公開されていたようだ。あんまり詳細は記述できないのだがサマリだけをメモ的にアップロードしていく。 最新のエンタープライズクラスのIBM z15分岐予測器の設計…

自作RISC-V OoOコアの分岐予測性能解析 (RASの論文を読む)

分岐予測は設計経験がないうえにいろいろ試行錯誤しながら作っているのだが、なかなか性能が伸びない。 時間を見つけて実装の見直しを行っているが、独自にいろいろやってもらちが明かないので論文を読んでみることにした。 参考にしたのは以下の論文「Impro…

自作RISC-V OoOコアの分岐予測性能解析 (RASの性能解析)

分岐予測は設計経験がないうえにいろいろ試行錯誤しながら作っているのだが、なかなか性能が伸びない。 とりあえず試行錯誤したバージョンは意外と性能が伸びていない。 RASのインデックスがずれてしまうのが問題のようだ。投機的にRASのインデックスが更新…

自作RISC-V OoOコアの分岐予測性能解析 (RASの設計仕様)

分岐予測は設計経験がないうえにいろいろ試行錯誤しながら作っているのだが、いくつか設計メモを残しておこう。 まずそもそもフェッチの動作だが、大きく分け3つのステージに分けている。 s0ステージ 命令キャッシュおよびTLBに対して仮想アドレスのリクエス…

自作RISC-V OoOコアの分岐予測性能解析 (RASのデバッグ)

ちまちまと自作RISC-Vコアを実装している。RASの検討をしたので実装を行っている。 問題となるのはBIMとの共用だ。BIMの方がキャッシュライン上の前のビット列でヒットすればそちらを採用し、RASの方がヒットすればそちらを採用する。 基本的な流れはこうだ…

自作RISC-V OoOコアの分岐予測性能解析 (RASの実装検討)

ちまちまと自作RISC-Vコアを実装している。DhrystoneがPASSできるようになったが、まだまだ性能的にはひどいもんだ。 次に検討するのはRAS (Return Address Stack)の実装だ。 RASはJALRやJAL命令などのCALL系命令でスタックに戻り値を置き、RET命令がフェッ…