在 ARC-AGI-2 这个公认的推理基准测试中, Gemini 3.1 Pro 拿到了 77.1% 的分数 。什么概念?它的前辈 Gemini 3 Pro 只有 31.1%,就连专门用来「深度思考」的 Gemini 3 Deep Think 也只有 ...