在上一篇《大模型强化学习算法的演进与对比:从PPO、GRPO、DAPO到GSPO、SAPO》文章中,作者梳理了当前 LLM 强化学习的主流方法的演进脉络。本文将进一步深入,聚焦近期 LLM 强化学习算法的关键设计。 强化学习里,off-policy 常用来提升训练效率:同一批 rollout ...
Chinese artificial intelligence developer DeepSeek today open-sourced DeepSeek-V3, a new large language model with 671 billion parameters. The LLM can generate text, craft software code and perform ...
A monthly overview of things you need to know as an architect or aspiring architect. Unlock the full InfoQ experience by logging in! Stay updated with your favorite authors and topics, engage with ...
大模型的「健忘症」,早该治治了! 当你试图用当今最先进的大模型帮你完成一个复杂的长假规划,比如「带全家老小去云南玩七天」时,往往很可能会遭遇一个令人崩溃的时刻: 起初,这位「导游」表现得极其靠谱,分析得头头是道。 它记得你说的每一句 ...
12月1日,DeepSeek同步发布两款正式版模型——DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale,前者在推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro,而后者在IMO 2025等四项国际顶级竞赛中斩获金牌。 V3.2在工具调用能力上达到当前开源模型最高水平,大幅缩小了开源模型与闭源 ...
The release of Deepseek v3.1 signifies a major advancement in the realm of large language models (LLMs). This open source AI model, licensed under MIT, introduces a powerful 700GB mixture of experts ...
此次曝光源于DeepSeek对其开源推理加速库FlashMLA的更新。在横跨114个文件的代码变动中,出现了28处“MODEL1”标识符,其技术路径与现有的V32(即DeepSeek-V3.2)架构存在显著差异,暗示这是一个经过彻底重构的新设计。 近日, DeepSeek在GitHub上的代码库更新中,意外 ...
Remember DeepSeek, the large language model (LLM) out of China that was released for free earlier this year and upended the AI industry? Without the funding and infrastructure of leaders in the space ...
2025 年 1 月 20 日,DeepSeek(深度求索)正式发布了 DeepSeek-R1 模型,并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1 也是该平台上获赞最多的模型。 如今,刚过一年时间,DeepSeek 的新模型又在 GitHub 悄然现身。
DeepSeek发布了DeepSeek-Prover-V2,这是一个新的开源大型语言模型,专门用于Lean 4中的形式化定理证明。这个模型构建在该公司的DeepSeek-V3基础模型支撑的递归定理证明流水线之上。Lean 4是微软研究院开发的交互式定理证明助手Lean theorem prover的最新版本。这种函数式 ...
If you want to learn how to use DeepSeek V3 Coder in Windows 11, this post will guide you. DeepSeek-V3 Coder is a specialized version of the DeepSeek-V3 model. It leverages natural language processing ...
智东西1月27日报道,刚刚,DeepSeek开源了其面向OCR场景的专用模型DeepSeek-OCR 2,技术报告同步发布。这一模型是对去年DeepSeek-OCR模型的升级,其采用的新型解码器让模型看图、读文件的顺序更像人,而不是像机械的扫描仪。 简单来说,以前的模型阅读模式是从 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果