大语言模型--Llama3新特性

2024-05-29 17:04:07 浏览数 (2)

词表大小从32000增加到128256，这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用

Llama3 8B和70B都使用了分组查询注意力机制(GQA)，4个Query共享一对Key、Value。减少了计算量，同时保持了模型的性能。

计算旋转位置的角度使用的超参数theta值是500000.0（Llama2用的是默认值10000.0）

上下文窗口中的最大Tokens从 4096增加到 8192

Llama2开源的参数是float16格式的，但Llama3开源的参数都是bfloat16。

transformers包升级到4.40.0以上

2024年4月21号初版 Llama3 8B的HellaSwag分数：acc 0.6039、acc_norm 0.776

2024年5月14号第二版 Llama3 8B的HellaSwag分数：acc_norm 0.822

1 人点赞