Embedding层
词表大小从32000增加到128256,这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用
Attention层--MultiHeadAttention算子
Llama3 8B和70B都使用了分组查询注意力机制(GQA),4个Query共享一对Key、Value。减少了计算量,同时保持了模型的性能。
Attention层--RoPE算子
计算旋转位置的角度使用的超参数theta值是500000.0(Llama2用的是默认值10000.0)
上下文窗口中的最大Tokens从 4096增加到 8192
数据类型
Llama2开源的参数是float16格式的,但Llama3开源的参数都是bfloat16。
依赖软件包
transformers包升级到4.40.0以上
模型版本
2024年4月21号 初版 Llama3 8B的HellaSwag分数:acc 0.6039、acc_norm 0.776
2024年5月14号 第二版 Llama3 8B的HellaSwag分数:acc_norm 0.822