色々分け合ってプリフェッチの論文を読んでいる。

Fetch Directed Instruction Prefetchingは、命令のプリフェッチのための機能。

命令プリフェッチを駆動するために、分岐予測器を使用するという方法。

分岐予測器を使用しないプリフェッチの場合：

フェッチした命令およびアドレスを使用して次のプリフェッチアドレスを指定するということになる。これに対して、FDPは命令フェッチがストールしても、分岐予測の情報をもとにプリフェッチを出し続けることができるので、プリフェッチの性能を向上させることができる。

さらに本論文では、L2のバンド幅を節約するために、

という提案手法がなされている。

Fetch Target Queue (FTQ)について

分岐予測器は、予測したアドレスをFetch Target Queue (FTQ)に格納する。

これにより、命令キャッシュがミスを発生してストールが発生したとしても、プリフェッチのリクエストを生成し続けることができる。

Fetch Target Buffer (FTB)について

Branch Target Buffer (BTB)と似ているが、より大きなフェッチブロックを予測することができるもの。

図1がFDPのアーキテクチャを示している。

L2から取得したキャッシュブロックは、プリフェッチ・バッファに格納される。
- Streaming Bufferに似ているが、プリフェッチアドレスをFTQから取得するところが異なる。
- キャッシュ・ブロックがPIQに挿入されると、プリフェッチ・バッファも確保される。
- プリフェッチ・バッファが満杯の場合、これ以上プリフェッチは発生しない。
命令キャッシュのフェッチが行われる際、プリフェッチ・バッファも同時に検索される
- Oldest Entryに対してヒットすると、そのエントリはエントリから削除され、命令キャッシュに挿入される
分岐予測が発生すると、プリフェッチ・バッファはフラッシュされ、FTQも同様にフラッシュされる。
- 別のアイデアとしては、プリフェッチ・バッファのエントリに置き換え可能ビットを追加し、分岐予測ミスの際はそのビットを立てる
- 分岐ミスが発生したとしても、短い順方向分岐の際に誤ったプリフェッチが再利用できるのではないかという考察
- その分、回路が複雑になる可能性はある。

フェッチ・ブロック数のトレードオフ

FTQ内のフェッチ・ブロック・エントリをフィルタリングすることを考える

結論：

FTQエントリの2番目のエントリからプリフェッチを開始する
- 理由：命令キャッシュからフェッチされる間際にプリフェッチとして開始しても、ほとんどメリットがない
FTQエントリを32本用意した場合、10エントリでプリフェッチを停止することで、良好なパフォーマンスを実現できる
- FTQのかなり遠い部分でプリフェッチをしても、プリフェッチが有用である確率が低下する

キャッシュのアイドル時間を使用して、プリフェッチ要求がキャッシュ内にあるかどうかをチェックする。

アイドルキャッシュポートを使用して命令キャッシュをプローブし、命令キャッシュに存在しない場合のみプリフェッチをFTQからPIQに移す。

保守的な手法といえる。

キャッシュ・ポートが空いている場合に限り、キャッシュ・タグをチェックして命令キャッシュに存在しているかをチェックする。

命令キャッシュ内に存在している場合、プリフェッチの候補から外される。

キャッシュ・ポートが空いていない場合は、命令キャッシュをチェックをせずにそのままプリフェッチする。

命令キャッシュでミスする可能性が高いフェッチ・ブロックをプリフェッチすることを考える。

あるキャッシュセットにコンフリクト・ミスが多い場合、そのキャッシュセットにマップされるすべてのブロックをプリフェッチして、フェッチ・バッファに置いておく。

キャッシュ・セットに信頼度カウンタを設置し、どのキャッシュセットが最も頻繁にミスするを調査する。
- 各命令キャッシュ・セットに対して2ビットの飽和カウンタを設置した
  - キャッシュ・ミス発生：セット・カウンタをインクリメント
  - キャッシュ・ヒット：セットカウンタを変更しない
  - 信頼度カウンタは100万サイクル毎にクリアされる