アウトオブオーダのCPUを作ろう - 性能向上作戦あれこれ(コンパイルオプションを変えて性能を上げる) -

きっかけはここらへん。

http://www.eembc.org/benchmark/reports/benchreport.php

これは Imagination Technologies がFPGA上に実装したMIPS P5600のベンチマーク結果である。これを見ると、コンパイルスイッチが、

-O3 -funroll-all-loops -fgcse-sm -fgcse-las -finline-functions -finline-limit=1000 -msoft-float -EL -G4 -fplugin=MIPS_CSG/tree_switch_shortcut_elf-2014.11-21.so -march=74kc -falign-functions=16 -mno-dsp

となっている。何となく意味は分かるが、それぞれについて調べてみよう。

-O3 最も積極的な最適化。以下のスイッチが有効になる。-finline-functions, -funswitch-loops, -fpredictive-commoning, -fgcse-after-reload, -ftree-loop-vectorize, -ftree-loop-distribute-patterns, -ftree-slp-vectorize, -fvect-cost-model, -ftree-partial-pre and -fipa-cp-clone options.
-fgcse-sm ロードストアをループの外に出す効果がある、らしい
-fgcse-las 冗長なロードストアを省略する
-finline-functions 関数のインライン展開
-funswitch-loops ループ内不変数をループの外に移動する
-finline-limit インライン最大展開数
-msoft-float ソフトウェアによる浮動小数点使用
-falign-functions n 関数の先頭をnバイトにアラインする

これらのオプションを有効にしてコンパイルしてみる。これにより、まず命令数を削減する効果が得られた。さらに、実際にRTLを使って性能を測定してみると、