FP16模式配置

Note

速度和显存优化和模型有关, 模型越大, 速度和显存提升越大.

原理 & 实现

fp16是指使用16位浮点数于参数的训练和保存，fp32是指的使用32位浮点数于参数的训练和保存，V100对fp16运算有特别的优化，所以使用fp16可以达到训练加速的效果。直接使用fp16会导致部分梯度置0，导致精度损失。实际过程中，使用fp32拷贝来保存模型，使用scale_factor来改变fp16的数值范围。
forward的过程，bn层、loss计算是使用fp32进行的，其余使用fp16进行计算；backward的过程，将fp16参数的grad拷贝到fp32参数的拷贝上，optimizer.step更新fp32参数，最后把fp32参数拷贝回fp16参数上。
具体细节参考 Mixed Precision Traning

runtime:
  # dist
  fp16: True