Bench - 搜索 News

2 小时

让AI自动构建AI模型：UCSD 推出 AIBuildAI 智能体，斩获OpenAI MLE-Bench榜单 ...

近日，加州大学圣地亚哥分校的研究团队开发了 AIBuildAI 智能体，可以全自动构建 AI 模型（包括模型设计，代码实现，模型训练，调参，性能评估，迭代优化）。团队成员包括博士生 Ruiyi Zhang，Peijia Qin，Qi Cao，Li ...

4 天

龙虾也能养龙虾！UCSD发布AIBuildAI智能体，MLE-Bench榜单第一

UCSD团队推出AIBuildAI智能体，无需编程，仅用自然语言描述任务，即可自动设计、编码、训练、调参并优化AI模型，分工协作，端到端完成AI开发。在OpenAI ...

1 天

这个AI能自己造AI，十几分钟写完代码，一天交付可用模型

AIBuildAI 是一个可以自动构建 AI 模型的 AI 智能体。这意味着，你只需给它一个自然语言任务描述和数据文件夹，它就能在一天内独立完成模型设计、代码生成、模型训练、超参数调优、性能评估，并持续迭代改进模型性能。

腾讯网

龙虾也能养龙虾！UCSD发布AIBuildAI智能体，MLE-Bench榜单第一

【新智元导读】UCSD团队推出AIBuildAI智能体，无需编程，仅用自然语言描述任务，即可自动设计、编码、训练、调参并优化AI模型，分工协作，端到端完成AI开发。在OpenAI MLE-Bench测试中，AIBuildAI以63.1%的获奖率位居第一，性能媲美人类专家，推动AI开发迈向全自动化 ...

腾讯网

Terminal-Bench解决率暴涨20%！华为CLI-Gym：环境交互类任务首个公开的 ...

「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布！」开源完整自动化数据构建算法构建 1655 个高可靠 CLI 任务环境镜像通过 291 条轨迹数据带来 20% 解决率提升在 Agentic Coding ...

36氪

AI科学家太多，谁靠谱一试便知，普林斯顿新基准CORE-Bench：最强模型 ...

普林斯顿大学发布CORE-Bench评测AI复现科研。普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21% 大模型的能力越来越强，用户在 ...

来自MSN

马斯克xAI推出Grok编码模型，编程实力冲进SWE-bench前五

在人工智能编程领域，一项重大突破悄然诞生。xAI公司推出的首个编码模型Grok Code Fast 1，从零开始构建，以其卓越的编程实力震撼业界，成功跻身SWE-bench基准测试前五名，仅次于OpenAI的Codex-1。尤为引人注目的是，该模型背后的核心团队中，华人学者占据了显著比例。这一消息如同马斯克曾承诺的 ...

来自MSN

新加坡国立大学推出IPV-BENCH：首个专门评估AI视频模型处理"不可能 ...

它能做什么？ A：IPV-BENCH是新加坡国立大学开发的AI视频评估平台，专门测试AI模型处理"不可能场景"的能力。它包含260个文字提示和902个不可能视频，能评估AI生成和理解违反物理定律、生物规律等奇特场景的能力，就像给AI设置的"不可能任务训练营"。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果