推荐阅读

优先展示推荐文章与带封面的内容。

Featured
分类
标签
拆解一个 200 万参数的小型 Transformer:每一行参数都在学什么?
AI/深度学习

拆解一个 200 万参数的小型 Transformer:每一行参数都在学什么?

用一张直观的表格和分层拆解,带你数清楚一个 200 万参数的语言模型里,词嵌入、注意力、前馈网络和输出头各自占了多少参数,以及它们分别学会了什么。

阅读
从零到一:全栈开发者的加密货币与虚拟卡实操指南
区块链

从零到一:全栈开发者的加密货币与虚拟卡实操指南

对于开发者而言,订阅海外服务(如 OpenAI API, GitHub, Claude Pro 等)经常面临支付网关不支持国内信用卡的难题。通过加密货币(如 ETH/USDT)充值虚拟银行卡,是目前最通用的解决方案。

阅读
10. 我现在怎么看待 ChatGPT
AI

10. 我现在怎么看待 ChatGPT

PyTorch 只是个计算器。1B=10亿个数字。200万和1750亿的差距只是工程规模。

阅读
9. 从训练到聊天
AI

9. 从训练到聊天

用「我是孙海洋」完整走一遍:输入→编码→6层Block→预测→抽卡→接龙。

阅读
8. 训练的秘密:怎么让模型变聪明
AI

8. 训练的秘密:怎么让模型变聪明

梯度是什么?200 万参数怎么一个个从随机走向合理?loss 从 8.07 到 2.0 的过程。

阅读
7. 掩码、残差和归一化
AI

7. 掩码、残差和归一化

三个配角但缺一不可。12 条「信息高速公路」让原始信息直达输出。

阅读
6. 手算一遍注意力
AI

6. 手算一遍注意力

用 3 个字、2 维的小例子,把四步注意力从头到尾算了一遍。

阅读
5. 注意力机制:让字看懂上下文
AI

5. 注意力机制:让字看懂上下文

Q/K/V、打分、掩码、softmax、融合。整个 Transformer 的灵魂所在。

阅读
4. 模型是如何「做题」的
AI

4. 模型是如何「做题」的

自监督学习——文本本身往后错一位就是答案。get_batch 发牌器的工作方式。

阅读