全称:Root Mean Square Layer Norm
paper:1910.07467.pdf (arxiv.org)
LayerNorm


µ是均值,σ是标准差
RMSNorm

RMSNorm删除了均值,性能提升7%-64%
pRMSNorm

再RMSNorm基础上,进一步只让前p%的元素参与运算
论文给出的经验值:p=6.25%
TensorRT-LLM使用的是RMSNorm
全称:Root Mean Square Layer Norm
paper:1910.07467.pdf (arxiv.org)


µ是均值,σ是标准差

RMSNorm删除了均值,性能提升7%-64%

再RMSNorm基础上,进一步只让前p%的元素参与运算
论文给出的经验值:p=6.25%
TensorRT-LLM使用的是RMSNorm