拆解一个 200 万参数的小型 Transformer：每一行参数都在学什么？封面

Transformer 模型参数词嵌入注意力机制前馈网络模型拆解

拆解一个 200 万参数的小型 Transformer：每一行参数都在学什么？

用一张直观的表格和分层拆解，带你数清楚一个 200 万参数的语言模型里，词嵌入、注意力、前馈网络和输出头各自占了多少参数，以及它们分别学会了什么。

素心

2026/05/19

60

约 6 分钟

Written by

素心

这个人很懒

发布日期: 2026/05/19
内容许可: CC BY-NC-SA 4.0

本文标题：拆解一个 200 万参数的小型 Transformer：每一行参数都在学什么？

评论

认真交流，保持友善。

参与讨论

首次评论需要审核，邮箱不会公开

200万参数Transformer拆解：词嵌入、注意力、前馈网络参数分布详解 | 素心