在机器学习的世界里,有一个函数几乎无处不在: Softmax。它将神经网络最后一层的打分变成一组概率,让模型能用“我有多确定”来回答问题。乍看,这只是一个便利的数学小工具;然而当我们把目光移向 19 世纪的统计力学,再回到 20 世纪的信息论,再 ...
来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。 近年来,视觉 Transformer 模型得到了极大的发展,相关工作在分类、分割、检测等视觉任务上都取得了很好的效果。然而,将 Transformer 模型应用于视觉领域并不是一件简单的事情。
线性注意力的核函数必须满足非负性,才能将注意力得分解释为归一化的概率分布。现有方案普遍通过 ReLU、1+ELU 等激活函数直接抹除向量中的负值,却直接导致了 q-k 内积中有效交互信息的丢失 —— ...
这项由南卫理公会大学莱尔工程学院Gabriel Mongaras和Eric C. Larson教授于2025年8月发表的研究,揭开了现代人工智能系统核心机制的神秘面纱。有兴趣深入了解的读者可以通过arXiv:2507.23632v1访问完整论文。 当我们与ChatGPT对话时,可能很少有人想过它是如何理解我们 ...