如果说现在的手机助手还像个只会按指令办事的机械工人,那么阿里巴巴刚刚发布的MAI-UI技术,就像是给手机装上了一个真正懂你心思的贴身管家。这项技术能让手机真正理解你的意图,不仅能准确找到屏幕上的各种按钮和选项,还能像人类一样与你对话,甚至在遇到问题时 ...
2025年12月29日,阿里通义实验室在GitHub悄悄开源了MAI-UI项目,还同步发了技术报告。 这事没开发布会,也没上微博热搜前十,却藏着改写移动互联网命运的信号。
2025年12月29日,通义实验室的多模态交互团队正式宣布开源其革命性的通用GUI智能体基座模型MAI-UI。这个模型的推出标志着用户交互领域的一次重大突破,旨在通过深刻理解屏幕界面并执行多步骤操作,帮助用户高效完成复杂任务,例如查询车票、在通讯群组中同步信息、调整会议安排等。
在更接近真实场景的MobileWorld测试集上,MAI-UI-235B-A22B整体成功率41.7%,比其他端到端模型高出20.8个百分点。在需要主动询问用户的任务上成功率37.5%,在需要调用MCP工具的任务上成功率51.1%,分别比之前最好的成绩高出32.1和18.7个百分点。
通义实验室多模态交互团队近日正式对外发布并开源了一款名为MAI-UI的通用GUI智能体基座模型。这款模型的核心能力在于能够精准理解各类屏幕界面内容,并依据指令执行相应操作,从而完成跨应用、多步骤的复杂任务。例如,在出行场景中,它可以快速查询车票信息; ...
通义实验室多模态交互团队近日宣布,其研发的通用GUI智能体基座模型MAI-UI正式开源。这一模型专注于屏幕界面理解与操作执行,能够跨应用完成多步骤复杂任务,例如查询车票信息、在通讯群组中同步内容,或调整会议安排等日常高频场景。
IT之家 6 月 2 日消息,在苹果应用开发领域,SwiftUI 框架一直被视为未来发展的方向。它是一种现代化的用户界面构建方式,能够跨苹果所有平台运行。然而,尽管 SwiftUI 在许多方面表现出色,但开发者在使用过程中仍面临一些限制,例如对富文本输入和网页视图 ...