全称:Root Mean Square Layer Norm
paper:1910.07467.pdf (arxiv.org)
LayerNorm
µ是均值,σ是标准差
RMSNorm
RMSNorm删除了均值,性能提升7%-64%
pRMSNorm
再RMSNorm基础上,进一步只让前p%的元素参与运算
论文给出的经验值:p=6.25%
TensorRT-LLM使用的是RMSNorm
全称:Root Mean Square Layer Norm
paper:1910.07467.pdf (arxiv.org)
µ是均值,σ是标准差
RMSNorm删除了均值,性能提升7%-64%
再RMSNorm基础上,进一步只让前p%的元素参与运算
论文给出的经验值:p=6.25%
TensorRT-LLM使用的是RMSNorm