
素心
我来互联网是当皇帝的
这个人很懒
拆解一个 200 万参数的小型 Transformer:每一行参数都在学什么?
https://haiy.space/posts/200-transformer作者
素心
发布于
2026/05/19
许可协议
CC BY-NC-SA 4.0
评论
欢迎留下想法,也可以直接回复某一条评论。
留下评论
评论提交后会先进入审核队列,通过后再显示在文章下方。

用一张直观的表格和分层拆解,带你数清楚一个 200 万参数的语言模型里,词嵌入、注意力、前馈网络和输出头各自占了多少参数,以及它们分别学会了什么。

素心
我来互联网是当皇帝的
这个人很懒
拆解一个 200 万参数的小型 Transformer:每一行参数都在学什么?
https://haiy.space/posts/200-transformer作者
素心
发布于
2026/05/19
许可协议
CC BY-NC-SA 4.0
欢迎留下想法,也可以直接回复某一条评论。
留下评论
评论提交后会先进入审核队列,通过后再显示在文章下方。