2025年这个春节,DeepSeek一举改写了全球AGI大叙事。在万般热闹之际,我们特别想沉下来做一些基础科普工作。 今天这集,我邀请的是香港科技大学计算机系助理教授何俊贤。他的研究方向是大模型推理,从很早就开始关注DeepSeek的系列研究。我们会focus在最近 ...
DeepSeek-Coder-V2是由DeepSeek AI开发的开源代码生成模型,采用236B参数的MoE架构,支持338种编程语言和128K上下文长度。在代码生成、编辑和修复任务中表现卓越,性能媲美GPT-4 Turbo,位居全球开源模型前列。该模型通过持续更新保持竞争力,适用于复杂编程场景 ...
2025年这个春节,DeepSeek一举改写了全球AGI大叙事。在万般热闹之际,我们特别想沉下来做一些基础科普工作。 在《商业访谈录》89集节目中,我邀请了加州大学伯克利分校人工智能实验室在读博士生潘家怡,为大家对照解读了春节前的DeepSeek-R1-Zero、R1、Kimi发布的 ...
DeepSeek-Coder-v2, the innovative open-source AI coding assistant developed by the DeepSeek AI team, is set to transform the programming landscape. This advanced AI model, designed to rival leading ...
DeepSeek-Coder-V2-Lite-Base是深度求索(DeepSeek)推出的开源代码生成模型,基于2360亿参数的MoE架构,专注于提升编程效率与多语言支持。该模型在代码补全、数学推理等任务中表现优异,支持338种编程语言,并可通过插件集成至JetBrains等开发环境。其特色在于动态 ...
用代码训练大模型思考,其他方面的推理能力也能提升。 DeepSeek 团队最新研究,利用 300 多万个实例,将代码转换成思考过程,构建出数据集 CODEI/O,对 Qwen、Llama 等模型进行了训练。 结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括在非 ...
DeepSeek-Coder-V2, developed by DeepSeek AI, is a significant advancement in large language models (LLMs) for coding. It surpasses other prominent models like GPT-4 Turbo, Cloud 3, Opus Gemini 1, and ...
DeepSeek, a relatively unknown Chinese AI startup, has sent shockwaves through Silicon Valley with its recent release of cutting-edge AI models. Developed with remarkable efficiency and offered as ...