近日,加州大学圣地亚哥分校的研究团队开发了 AIBuildAI 智能体,可以全自动构建 AI 模型(包括模型设计,代码实现,模型训练,调参,性能评估,迭代优化)。团队成员包括博士生 Ruiyi Zhang,Peijia Qin,Qi Cao,Li ...
UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI ...
AIBuildAI 是一个可以自动构建 AI 模型的 AI 智能体。这意味着,你只需给它一个自然语言任务描述和数据文件夹,它就能在一天内独立完成模型设计、代码生成、模型训练、超参数调优、性能评估,并持续迭代改进模型性能。
【新智元导读】UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化 ...
「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布!」开源完整自动化数据构建算法构建 1655 个高可靠 CLI 任务环境镜像通过 291 条轨迹数据带来 20% 解决率提升在 Agentic Coding ...
普林斯顿大学发布CORE-Bench评测AI复现科研。 普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21% 大模型的能力越来越强,用户在 ...
在人工智能编程领域,一项重大突破悄然诞生。xAI公司推出的首个编码模型Grok Code Fast 1,从零开始构建,以其卓越的编程实力震撼业界,成功跻身SWE-bench基准测试前五名,仅次于OpenAI的Codex-1。尤为引人注目的是,该模型背后的核心团队中,华人学者占据了显著比例。 这一消息如同马斯克曾承诺的 ...
它能做什么? A:IPV-BENCH是新加坡国立大学开发的AI视频评估平台,专门测试AI模型处理"不可能场景"的能力。 它包含260个文字提示和902个不可能视频,能评估AI生成和理解违反物理定律、生物规律等奇特场景的能力,就像给AI设置的"不可能任务训练营"。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果