拆解一个 200 万参数的小型 Transformer:每一行参数都在学什么? 封面

拆解一个 200 万参数的小型 Transformer:每一行参数都在学什么?

用一张直观的表格和分层拆解,带你数清楚一个 200 万参数的语言模型里,词嵌入、注意力、前馈网络和输出头各自占了多少参数,以及它们分别学会了什么。

素心
12
6 分钟
素心

素心

我来互联网是当皇帝的

这个人很懒

拆解一个 200 万参数的小型 Transformer:每一行参数都在学什么?

https://haiy.space/posts/200-transformer

作者

素心

发布于

2026/05/19

许可协议

CC BY-NC-SA 4.0

评论

欢迎留下想法,也可以直接回复某一条评论。

留下评论

评论提交后会先进入审核队列,通过后再显示在文章下方。

提交后会自动记录基础环境信息,用来帮助区分不同访客设备。

200万参数Transformer拆解:词嵌入、注意力、前馈网络参数分布详解 | 素心