文章 | 素心

用一张直观的表格和分层拆解，带你数清楚一个 200 万参数的语言模型里，词嵌入、注意力、前馈网络和输出头各自占了多少参数，以及它们分别学会了什么。

对于开发者而言，订阅海外服务（如 OpenAI API, GitHub, Claude Pro 等）经常面临支付网关不支持国内信用卡的难题。通过加密货币（如 ETH/USDT）充值虚拟银行卡，是目前最通用的解决方案。

PyTorch 只是个计算器。1B=10亿个数字。200万和1750亿的差距只是工程规模。

用「我是孙海洋」完整走一遍：输入→编码→6层Block→预测→抽卡→接龙。

梯度是什么？200 万参数怎么一个个从随机走向合理？loss 从 8.07 到 2.0 的过程。

三个配角但缺一不可。12 条「信息高速公路」让原始信息直达输出。

用 3 个字、2 维的小例子，把四步注意力从头到尾算了一遍。

Q/K/V、打分、掩码、softmax、融合。整个 Transformer 的灵魂所在。

自监督学习——文本本身往后错一位就是答案。get_batch 发牌器的工作方式。