コンピュータアーキテクチャの論文を読んでいたのだが、どうもよく知らない項目がある。よく考えてみたらコンピュータアーキテクチャの最新トレンドも含め最近勉強量が不足していたので、ここらへんでもう一度復習しておきたい。せっかくなので海外の大学の講義資料を読んでみよう。

Advanced Computer Architecture

6. 複数命令発行

CPI<1を達成するためには、1命令あたりに複数の命令を発行する必要がある。このための解決方法として

がある。順に紹介する。まずは、複数命令を発行するための技法についてまとめる。

名前	命令発行方針	ハザード検出	スケジューリング	特徴	例
スーパスカラ（静的）	動的	ハードウェア	静的	インオーダ実行	組み込み業界で使用される。MIPS, ARM, Cortex-A8
スーパスカラ（動的）	動的	ハードウェア	動的	いくつかはアウトオブオーダ実行。ただし投擲的実行はしない	存在しない。
スーパスカラ（投機的実行）	動的	ハードウェあ	投機的実行を使用した動的	投機的アウトオブオーダ実行	Intel Core i3, i5, i7, AMD Phenom, IBM Power 7
VLIW/LIW	静的	主にソフトウェア	静的	全てのハザードはコンパイラにより検出され調整される。	信号処理プロセッサ。TI C6xなど。
EPIC	主に静的	主にソフトウェア	ほとんど静的	全てのハザードはコンパイラにより明示的に検出され調整される。	Itanium

複数の演算を1つの命令にまとめ上げる。

コード内に十分な並列性を取得できる必要がある。VLIWの問題点としては、

現代のマイクロアーキテクチャが採用している手法。実現するためには、2つの方法がある。

命令発行ロジックがボトルネックとなりうる。

発行する命令の組を「バンドル」と呼ぶ。バンドル内のすべての命令の依存関係について検出する必要がある。もし依存関係がバンドル内に存在すれば、リザベーションステーション内でそれらを表現する。さらに複数かんりょう・複数コミットをサポートさせる。

実際のベンチマークではこのようになる。

ハードウェアのもつ最大性能を達成することができない原因として、70年代まではメモリのレイテンシの影響が要因だった。しかし90年代になると、並列ハードウェアが複雑になっても、性能ハードウェアの複雑性に対して線形に増加しないという問題が発生した。

これだけのハードウェアを投入すると、プロセッサのハードウェア使用率は減少し、命令発行幅に比例して命令のスループットが増加しなくなる。

したがって、一般的な解決方法としてよりスマートなキャッシュや、より精度の高い分岐予測器の実装が挙げられた。

しかし、マルチスレッドプロセッサは全く異なるスレッドの独立した命令を同時に実行することで、プロセッサのストール要因を削減する。1つのスレッドだけでなく、複数スレッドのハードウェアを持つ。

ソフトウェアのコンテキストスイッチングを行うことなく複数の命令ストリームを実行することで、ハードウェアの使用率を向上させる。

細粒度マルチスレッディングでは、CPUのスレッドを1サイクル毎に切り替えることでオーバヘッドを最小化する。これにより、各スレッド間のストールを隠蔽する。

粗粒度マルチスレッディングでは、CPUの1スレッドがストールすると、別のスレッドの命令を毎サイクル発行する。

同時マルチスレッディングでは、同じパイプラインステージに複数のスレッドの命令が混在することを許可する。

粗粒度マルチスレッディング
- 長いレイテンシの演算（L2キャッシュミスなど）が実行された際にスレッドを切り替える。
- キャッシュミスを処理している最中に、他のスレッドが実行される。
- 命令スループットは若干向上するが、ミスが発生しても命令の実行時間は長くならない。
  - 短いレイテンシの演算レイテンシを隠すことはない。
  - スレッドを切り替えることによるパイプラインを埋める必要がある。
  - 長いレイテンシの演算が無ければ、スレッドは切り替わらない。
- HEP ,IBM RS64 III
細粒度マルチスレッディング
- サイクル毎にスレッドを切り替える（通常はラウンドロビン）
- 全ての要因でレイテンシを隠蔽する。
- 命令スループットを大きく向上させるが、各スレッドの実行時間は長くなる。
同時マルチスレッディング(SMT)
1. 複数の命令を複数のスレッドから同じサイクルに発行する。
2. ハードウェアのコンテキストスイッチングは行われない。
3. 各スレッドの実行時間を増価させることなく、命令のスループットを向上させる。