C Transformer Python - 搜索 News

500行C代码，把Transformer的神秘感彻底杀死

严格来说这不是GPT的架构复刻，而是精神继承。没有可学习参数的LayerNorm，用的是RMSNorm；激活函数是Squared ReLU而非GELU；tokenizer是字符级的，不是BPE。但核心机制一个不少：embedding、多头因果自注意力 ...

一些您可能无法访问的结果已被隐去。