WebWatcher的创新之处在于,它既能"看"懂图片,又能"读"懂文字,还能像人类研究员一样使用各种工具来收集和分析信息。 在测试中,WebWatcher在多个极具挑战性的基准测试上都表现出色,特别是在需要同时处理视觉和文本信息的复杂任务中,它的表现超越了包括GPT-4o在内的多个知名AI系统。
智东西8月15日消息,今日晚间,阿里宣布推出首个开源多模态深度研究智能体(Deep Research Agent)——WebWatcher。 市面上的深度研究工具层出不穷,但大多只能围绕文字进行搜索。WebWatcher的核心创新点在于配备了增强的视觉语言推理能力,能够图文结合思考并调用 ...