続 rotate.hpp/byte_swap.hpp

実際に計測して微調整しました。
差分
昨日のコードでは16ビットのバイト交換にxchgを使っていましたが、これは遅いみたいなのでrolに置き換えました。
ppc版は予想通りsthbrxが遅かったので(というか一旦メモリにストアしないといけないので)C++のコードをそのまま使うことにしました。
あと、gccインラインアセンブラで条件レジスタ("cc")を壊すことを指示していない箇所を直しました。