
10. 我现在怎么看待 ChatGPT
PyTorch 只是个计算器。1B=10亿个数字。200万和1750亿的差距只是工程规模。
阅读
共 10 篇匹配内容。
标签:AI

PyTorch 只是个计算器。1B=10亿个数字。200万和1750亿的差距只是工程规模。

用「我是孙海洋」完整走一遍:输入→编码→6层Block→预测→抽卡→接龙。

梯度是什么?200 万参数怎么一个个从随机走向合理?loss 从 8.07 到 2.0 的过程。

三个配角但缺一不可。12 条「信息高速公路」让原始信息直达输出。

用 3 个字、2 维的小例子,把四步注意力从头到尾算了一遍。

Q/K/V、打分、掩码、softmax、融合。整个 Transformer 的灵魂所在。

自监督学习——文本本身往后错一位就是答案。get_batch 发牌器的工作方式。

多维数组。batch(16段) × time(32字) × channel(128维) 打了一个木箱比喻。

Tokenization、字符映射、encode/decode——模型处理的全是数字。