注意力层:
代码语言:javascript复制输入 -> LLQ -> @ -> /√ES -> softmax -> @ -> LLO -> Dropout -> 输出
| ↑ ↑
---> LLK --- |
| |
---> LLV ----------------------------
FFN 层:
代码语言:javascript复制输入 -> LL1 -> GELU -> Dropout -> LL2 -> 输出
TF 层:
代码语言:javascript复制输入 -> LN1 -> 注意力层 -> Dropout1 -> ⊕ -> 中间量
| ↑
-----------------------------------
代码语言:javascript复制中间量 -> LN2 -> PFF 层 -> Dropout2 -> ⊕ -> Dropout3 -> 输出
| ↑
-----------------------------------
Bert编码器:
代码语言:javascript复制输入 -> 嵌入层 -> TF 层 x NL -> 输出
Bert 解码器:
代码语言:javascript复制输入 -> LL -> softmax -> 输出