AI/深度学习拆解一个 200 万参数的小型 Transformer:每一行参数都在学什么?用一张直观的表格和分层拆解,带你数清楚一个 200 万参数的语言模型里,词嵌入、注意力、前馈网络和输出头各自占了多少参数,以及它们分别学会了什么。2026/5/19阅读arrow_forward