大语言模型--Llama3新特性

2024-05-29 17:04:07 浏览数 (2)

Embedding层

词表大小从32000增加到128256,这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用

Attention层--MultiHeadAttention算子

Llama3 8B和70B都使用了分组查询注意力机制(GQA),4个Query共享一对Key、Value。减少了计算量,同时保持了模型的性能。

Attention层--RoPE算子

计算旋转位置的角度使用的超参数theta值是500000.0(Llama2用的是默认值10000.0)

上下文窗口中的最大Tokens从 4096增加到 8192

数据类型

Llama2开源的参数是float16格式的,但Llama3开源的参数都是bfloat16。

依赖软件包

transformers包升级到4.40.0以上

模型版本

2024年4月21号 初版 Llama3 8B的HellaSwag分数:acc 0.6039、acc_norm 0.776

2024年5月14号 第二版 Llama3 8B的HellaSwag分数:acc_norm 0.822

1 人点赞