找工位
空间入驻
小程序

谷歌深夜放大招!Gemini 3.1 Pro碾压GPT-5.2,12项测试全第一

2026-02-22
文章转载自"淘工位"

深夜炸场!谷歌新模型12项测试全胜,AI格局要变天?

凌晨2点,当大多数人还在睡梦中,谷歌突然扔出一颗重磅炸弹!新一代旗舰模型Gemini 3.1 Pro正式发布,直接把AI圈炸醒了!

更惊人的是,根据官方基准测试,这个新模型在12项关键测试中,竟然全面超越了Gemini 3 ProClaude Opus 4.6Claude Sonnet 4.6,甚至包括大家熟悉的GPT-5.2

这到底是什么神仙模型?凭什么能这么强?今天咱们就来扒一扒!

💡 清华天才加盟!推理能力直接翻倍

这次Gemini 3.1 Pro最大的升级点,就是推理能力!

面对业界公认最难的ARC-AGI-2通用智能基准测试,Gemini 3.1 Pro直接斩获77.1%的高分!这个成绩不仅超越了所有竞争对手,而且相比上一代Gemini 3 Pro实现了翻倍提升!

更让人兴奋的是,去年9月刚刚加入谷歌DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也亲自发文官宣!他在社交媒体上激动地表示:“更好的Gemini模型正以势不可挡的速度涌现!”

  • 推理能力翻倍提升
  • 清华天才科学家亲自站台
  • 12项测试全面领先

🌟 实测太震撼!从操作系统到《我的世界》都能造

光说不练假把式!咱们直接看实测效果!

1. 一键生成完整操作系统

知名AI博主Chetaslua展示了用Gemini 3.1 Pro一次性安装Windows 11 WebOS的结果!

他在帖子中直言:“上次我分享类似案例时还非常困难,现在已经变成常态。有了智能体系统,我们几乎可以用这个模型做任何事!”

Gemini 3.1 Pro生成的系统界面包含:

  • 完整的应用图标
  • 开始菜单样式布局
  • 基础窗口交互逻辑
  • 接近可运行的轻量级操作系统形态

2. 浏览器里玩《我的世界》

有开发者用Gemini 3.1 Pro在浏览器中直接生成并运行了一个可交互的VoxelWeb项目!

这个项目形态类似“我的世界”式3D沙盒,界面已经包含:

  • 启动按钮
  • 移动控制
  • 方块交互
  • 基础合成逻辑

3. 视觉错觉都能拆解

最让人震惊的是视觉理解能力!有网友专门测试“AgenticVision”能力,输入一张看似普通的街头垃圾桶照片。

模型不仅完成了基础识别,还进一步指出:当眯眼或拉远观看时,画面中的垃圾、阴影与轮廓会在视觉上拼合成两个并排而坐的卡通角色!

更厉害的是,模型还逐项拆解了这一视觉错觉的形成机制,解释不同布料、垃圾袋与阴影分别对应角色的头部、身体与外轮廓关系!

🚀 创意编程天花板!分分钟搞定复杂项目

手搓《模拟城市》级应用

谷歌UX工程师Michael Chang用Gemini 3.1 Pro开发了一个逼真的城市规划应用程序!

Gemini 3.1 Pro能自己处理:

  • 复杂地形
  • 绘制基础设施图
  • 模拟交通
  • 生成高质量可视化效果

SVG动画生成神器

还记得那个经典的“鹈鹕骑自行车”对比吗?右侧Gemini 3.1 Pro生成的鹈鹕身体结构、骑行姿态自然合理,自行车的车架、链条、脚踏、座椅等细节完整!

相比Gemini 3 Pro的生成结果,Gemini 3.1 Pro的版本更符合物理常识,更像一个完整的动画场景!

Gemini 3.1开发SVG生成功能的清华校友Jiao Sun在X上评论说“无比自豪”!

实时航空航天仪表盘

Gemini 3.1 Pro构建了一个实时航空航天仪表盘,成功配置了公共遥测数据流,以可视化国际空间站的轨道运行轨迹!

3D椋鸟群飞模拟

模型可以编写代码,生成一个复杂的3D椋鸟群飞模拟!用户可以通过手势追踪操控鸟群,同时聆听一段生成式配乐,音乐会随着鸟群的动态变化而改变!

文学主题网站设计

当被要求为艾米莉·勃朗特的《呼啸山庄》构建一个现代个人作品集网站时,Gemini 3.1 Pro深入分析了小说的氛围基调,设计出一个简洁现代的界面,打造出一个能捕捉主角精神内核的网站!

⚡ 技术实力碾压!12项测试全胜

研究人员在一系列基准测试中对Gemini 3.1 Pro进行了全面评估,包括:

  • 推理能力
  • 多模态能力
  • 智能体工具使用
  • 多语言性能
  • 长上下文处理

相比Gemini 3 ProClaude Sonnet 4.6Claude Opus 4.6GPT-5.2GPT-5.3-CodexGemini 3.1 Pro在12项基准测试中拿下第一!

关键测试表现:

  1. ARC-AGI-2通用智能测试:77.1%高分,超越所有竞品
  2. 人类最后的考试:表现优于Claude、GPT模型
  3. GPQA Diamond:同样领先竞争对手
  4. 多模态能力:在MMMU-Pro上表现优异
  5. 工具使用能力:τ2-bench、MCP Atlas等测试中全面领先

💰 如何用上这个神器?

从今天起,不同用户可以通过以下方式使用Gemini 3.1 Pro

普通用户:

  • Google AI Pro、Ultra订阅用户:可以在Gemini应用、AI助手NotebookLM中使用
  • 免费用户:可向Gemini 3.1 Pro提问2次

专业用户:

  • 开发者和企业用户可以在AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI及Android Studio的Gemini API预览版中使用

价格信息:

Gemini 3.1 Pro预览版的API价格采用分级计费模式,与上一代保持一致:

  • 提示词在20万token以内:
    • 每百万token输入价格:2美元(约合人民币14元)
    • 每百万token输出价格:12美元(约合人民币83元)
  • 提示词超过20万token:
    • 每百万token输入价格:4美元(约合人民币28元)
    • 每百万token输出价格:18美元(约合人民币124元)

🎯 AI竞赛新焦点:复杂任务落地能力

当前大模型行业正从通用能力比拼,转向真实世界复杂任务的实战能力竞争!

海内外各家模型在推理、工程化、多模态理解等核心能力上不断发力突破,力求让大模型真正落地应用,与真实业务场景相结合!

谷歌近期的加速布局也是如此:

  • 上周发布了Gemini 3 Deep Think模型升级
  • 一周后又推出Gemini 3.1 Pro

都将模型的升级重点放在专业领域加速技术研发、解决实际工作中的复杂问题上!

这标志着AI正在从“玩具”变成真正的“生产力工具”!

当别人还在比拼参数时,谷歌已经开始解决真实世界的复杂问题了!

你最想用Gemini 3.1 Pro做什么有趣的项目?在评论区告诉我吧

注:图片来源于网络和AI创作

END

FOCUS ON US
关注我们了解更多最新资讯
图片