以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至 77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。
科技行者 on MSN
DeepSeek推出V3.2:开源大模型首次挑战GPT-5,在数学竞赛中勇夺金牌
这项由DeepSeek-AI团队发表于2025年12月的重要研究,向我们展示了开源人工智能模型的一个重大突破。有兴趣深入了解的读者可以通过arXiv:2512.02556v1查询完整论文。这个名为DeepSeek-V3.2的新模型不仅在性能上与GPT ...
机器之心发布当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward,optimizer step ...
当你听说某个AI模型在数学考试中得了满分时,可能会觉得人工智能的数学能力已经超越人类了。然而真实情况远比这复杂。最近这项来自腾讯和中国人民大学的研究揭示了一个令人深思的现象:当我们用真正的前沿数学研究来测试这些AI时,即便是最先进的模型也会暴露出巨大的能力短板。 研究团队开发了一个名为EternalMath的测试系统,它的特别之处在于能够自动从最新发表的数学论文中提取问题。这就好比给AI出题的老师 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果