RL - 搜索 News

腾讯网

多轮任务Agentic RL新范式！中科大开源Agent-R1 v2，提升大模型长程规划 ...

编辑：没方 Agentic AI 正在成为人工智能领域最具变革性的研究方向之一。这类具备自主规划能力、能够灵活调用工具并与环境持续交互的智能体，正从早期的实验室原型逐步走向复杂真实场景中的规模化应用（如Claude ...

7 天

用SFT打出RL的效果？微软联合提出高效后训练算法

在大模型后训练阶段，监督微调（SFT）和强化学习（RL）是两根不可或缺的支柱。SFT 利用高质量的离线（Off-policy）数据快速注入知识，但受限于静态数据分布，泛化能力往往容易触及天花板并带来灾难性遗忘；RL ...

2 天

3月中旬，腾讯云与AI大模型厂商MiniMax达成了一项深度合作，双方围绕Agent RL，也就是智能体强化学习训练的核心场景，基于腾讯云Agent Runtime沙箱产品展开全链路技术协同。资本市场对此反应迅速，消息传出后，港股MiniMax-W股价应声大涨，盘中涨幅一度超过19%。同时，另一家大模型概念股智谱也录得超13%的涨幅，显示出市场对整个AI智能体赛道的敏感与期待。这并非一次简单 ...

新浪网

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式 ...

清华和上交的最新论文中，上演了一场“学术打假”的戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验，他们证明引入强化学习的模型在某些任务中的表现，竟然不如未使用强化学习的模型。论文 ...

14 天

腾讯云与MiniMax达成深度合作助力打造生产级Agent RL底座

上证报中国证券网讯（记者操子怡）3月18日，记者从腾讯方面了解到，近日，AI大模型厂商MiniMax与腾讯云正式达成深度合作，双方围绕Agent RL强化学习训练的核心场景，基于腾讯云Agent Runtime沙箱产品展开全链路技术与业务协同。据介绍，MiniMax近期发布的Agent RL框架Forge，旨在突破大模型在复杂任务中的逻辑推理、代码执行与自主决策能力，而其大规模训练对底层基础设 ...