
一位新国王登上了王位。作者|李源来了。已经快一个月的Gemini 3 Pro在Google AI Studio预览版中正式上线,API也同时开放。接下来,它将推广到各种谷歌产品中。没有多余的废话,当我打开模型卡的时候,我的眼里只写着两个字:暗恋。根据谷歌披露的测试数据,Gemini 3 Pro毫无疑问成为了地球上数学能力最强的AI。在Matharena这个数学竞赛的“地狱模式”中,当包括GPT-5.1在内的其他大型模型还挣扎在1%左右时,Gemini 3 Pro直接达到了23.4%。就编程能力而言,尽管他在SWE-BRENCH没有获得SOTA,但他绝对处于第一梯队。 Live Code Bench ELO 得分超过 2400 分,在工具调用和终端操作基准测试中排名第一。真正引爆的是它的“视觉智能”。理解能力截图率高达72.7%,是目前state-of-the-art的两倍。这意味着智能体不再盲目,将彻底重塑人工智能计算机的运行方式。但事情还没有结束。谷歌今晚还抛出了一个小惊喜:它自己的代理编程平台——谷歌反重力。过去,网上有报道称Gemini 3可以实现“端到端编程”,大家都认为该模型很完美。但看起来该模型并不完美,但谷歌正在探索如何以更高效的工程实现端到端编程。如果光标是目前最强大的“外骨骼”,它可以让你通过AI补全更快地编写代码;那么反重力就会导致“自动驾驶”。它不再是一个编辑器,而是一个代理优先的开发环境。它结合了Gemini 3和Gemini 2.5计算机使用模型,可以控制浏览器。它的代理可以自己编写代码,自己打开终端并运行测试,并且甚至可以自己打开浏览器来验证UI并自行修复错误。不讲故事,只讲肌肉。谷歌利用这波硬核发布,宣告了新王者的到来。有趣的是,这次就连山姆·奥尔特曼也竖起了大拇指。 :)
01 领跑榜单的暴力美学:不仅有洗排行榜的智商,还有特工能力的变化。在AI圈子里,大家都习惯了追逐各个模型的微弱优势,但Gemini 3 Pro抛出的卡报可以说是让人眼花缭乱。根据Model Card透露的数据,Gemini 3 PRO在推理、多模态、代理工具使用等关键基准测试中取得了全面统治力。
我们先来看看代表人类智力“天花板”的测试——对人的最终测试。它是衡量学术推理极限的标尺,在之前的测试中GPT-5.1得分为26.5%,而Claude Sonnet 4.5得分仅为13.7%。双子座ni 3 Pro以37.5%的高分直接命中。在高端推理层面,这10%的分数意味着模型在处理学术上的复杂问题时已经有了完全不同的理解深度,但这还不是限制。谷歌还隐藏了 Gemini 3 Deep Thinking(深度正念模式)。在不使用任何工具的情况下,其 HLE 分数甚至攀升至 41.0%。看来人类最后的堡垒不会持续太久了。
它的主导地位在数学和物理的各个领域都可见一斑。 AIME 2025(美国数学邀请赛):在代码执行(代码执行)方面,Gemini 3 Pro的准确率达到了惊人的100%。没错,满分。即使在“裸”(无工具模式)下,它的准确率也达到 95.0%(相比之下,GPT-5.1 为 94.0%,Claude Sonnet 4.5 为 87.0%)。 Matharena Apex(数学竞赛地狱模式):当包括 GPT-5.1 在内的其他大型模型还在 1% 左右挣扎时,Gemini 3 Pro 直接达到了 23.4%。这意味着Gemini 3开始解决许多以前AI无法理解的问题。更关键的是代理相关能力的提升。 Gemini在多模态能力上一直处于领先地位,这一代还专门优化了屏幕理解。这是下一代智能体能否真正管理人类计算机的关键。看看screenspot-pro上的数据:GPT-5.1:3.5%(这确实意味着它是“盲目的”)。双子座 3 Pro:72.7%。这是近二十倍的能力碾压!标志着Gemini 3 Pro不再是一个简单的对话框。它具有真正的“视觉智能”,可以像人类一样理解复杂的操作系统界面。拥有一些传统优势的 Gemini 3 Pro 依然表现出色——比如支持 1m token 的大上下文窗口、对多数据模态、长视频和多语言处理的“原生支持”等。
有一个有趣的标准也称为 GOOGLE 捕获:In Vending-Bench 2,模拟开店赚钱的基准测试,Gemini 3 Pro 最终拿到了 5,478.16 美元,而 GPT-5.1 只拿到了 1,473.43 美元。不过,就此前传闻的“完全端对端程序员”的编程能力而言,Gemini 3 Pro的地位处于AI行业巅峰,但并没有“逆向编程”。在衡量软件工程能力的SWE-Bench验证测试中,Gemini 3 Pro得分为76.2%。虽然很强,但无法超越Claude Sonnet 4.5(77.2%)获得SOTA。这意味着它在处理过长、过于复杂的后端逻辑时仍然存在局限性。这是非常合理的。在目前全力投入编程的每一个malarge模型中,想要成为这个领域的佼佼者确实很难。目前Gemini的能力比较集中,不会帮你重建整个后端架构。然而,如果你想写一个具有现代设计审美的网站cs、3D 太空飞船游戏,或生成复杂的交互式 SVG 动画,它可以通过单个提示提供极其令人惊叹、直接的结果。 02反重力,代理编程的探索。凭借最强大的模型和计算能力,谷歌开始在应用层“翻盘”。今晚,谷歌投下了一枚“小王炸弹”——谷歌反重力。以往新闻的趋势是模型公司试图收购AI编程应用公司,而这次谷歌迅速推出了自己的开发平台。它不仅仅是一个新的 IDE,它是 Google 定义的代理优先的开发平台。在这里,开发者从“编码员”升级为“架构师”,Gemini 3则转型为“执行合伙人”,拥有编辑器、终端和浏览器的全部权限。为了实现这种体验,谷歌还配置了一个“军队模型”在后台进行协作:Gemini 3:作为大脑,负责高级推理和计算。代码编写。 Gemini 2.5 计算机使用:作为间谍,专门控制浏览器用于 UI 验证和测试。 Nano Banana:作为一名艺术家,负责开发图像和UI材料。连接底层模型到顶层交互的闭环体验,对于光标等现有AI编辑器来说,无疑是一次降维打击。
反重力最有趣的能力是并行性。官方资料明确提到,开发者可以与多个智能代理合作,这些代理可以同时代表您独立规划和执行复杂的端到端软件任务。想象一下这样的工作流程:你发出指令,反重力多个代理立即分裂——Agent A负责编写后端逻辑,Agent B负责运行终端测试用例,Agent C直接打开浏览器验证前端UI交互的效果。他们并行工作,就像敏捷的开发团队运作良好,你只需要接受他们提交的“工件”即可。 Antigravity 是一个免费平台。目前网上使用反重力的体验不多,但确实都不错。当然不可能取代 Cursor 本身——端到端的复杂编程体验确实需要更成熟的模型。但对简单的项目进行编程会更容易。 03 全家齐心协力:下半年TPU与搜索大模型开发,比拼的不再是单一算法灵感的闪现,而是算力更广泛、投入更长久的竞争。 Gemini 3 Pro 的成功得益于 Google TPU 的训练。当世界各地的AI公司都在等待NVIDIA GPU的出货时,谷歌仍然坐拥自己庞大的TPU矿场。 TPU专为LLM训练而设计,拥有非常高的高带宽内存(HBM),这使得它能够轻松处理非常大的模型参数和非常大的批量大小。正是TPU过剩的算力,让Gemini 3 Pro有底气一不小心就扩大了参数规模。有了算力,还需要“燃料”。 Gemini 3 Pro 的训练数据范围很全面:它使用公共网络文档、代码库、图像、音频和视频。更重要的是,谷歌明确提到了用户数据的使用——当然,在隐私协议的框架内,用户交互数据来自谷歌庞大的产品生态系统。最终,这种溢出的情报被注入到谷歌搜索中。谷歌这次推出了一种新的人工智能搜索模式。当你查找复杂的概念(比如RNA聚合酶如何工作)时,Gemini 3不再向你扔一堆冷链接,而是利用强大的推理能力立即生成(动态生成)沉浸式交互图或模拟工具。
来自TPU为主的霸基从底层的D,到中间层的智能模型,再到顶层的反重力开发生态和生成搜索——谷歌今晚呈现的不仅仅是一个完美的模型,而是一个只能打造巨人的无缝未来。 04 实际测试体验 最后我们来看一下网上的一些实际测试体验。流行的六边形测试的升级版本。
如今,大型模型的性能正在突破基准分数的界限。即使是最先进、最复杂的切削基准,其测量精度也开始下降。如何科学地衡量模型之间的细微差异,已经成为一门专门的“定量科学”。仅凭简单的实际用户测量很难一窥其中的全部奥秘。实际测试用例更多的是看模型本身的美观度和一击状态。 Gemini 3 显然有很大的机会赢得这次更新。由于制作模型的能力直接变得越来越好,对于开发者来说,未来更多地取决于你的品味是否能够凌驾于模型之上,以及你的想法是否不同。 *头图来源:视觉中国本文为极客公园原创文章。转载请联系微信Geekparkgo极客君。极客一问:你认为人类的审美能够胜过直接的AI审美吗?扎克伯格:骄傲会导致失败。创作必须服务大众。点赞并关注极客公园视频账号。
特别声明:本文由网易自媒体平台“网易号”作者上传发布,仅代表作者观点。网易仅提供信息发布平台。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。