谷歌今天发布了Gemini 3.1 Pro,刚看到测试评分,感觉这是冲着屠榜来的(模型军备竞赛继续,利好半导体!)😂
官方定位很明确:专为复杂任务设计,比如深度研究、工程难题、长链推理和agentic工作流。
核心亮点:1M token上下文窗口(保持不变)
多模态支持(文本+图像+视频+音频+代码)
输出最高64k tokens
性能对比当前主流模型(Claude Opus 4.6、GPT-5.2/5.3等):
ARC-AGI-2(最难的抽象推理基准):
Gemini 3.1 Pro 77.1%,领先Claude 4.6(68.8%)约8-9个百分点,
领先GPT-5系列20-30+个百分点。这是最大进步,代表核心推理质的飞跃。
GPQA Diamond(PhD级科学推理):94.3%,小幅领先Claude 4.6(91.3%)和GPT-5.2(92.4%),差距2-3个百分点,基准已接近饱和。
SWE-Bench Verified(真实软件工程任务):80.6%,领先Claude 4.6(约76-77%)3-5个百分点,领先GPT明显(5-15%)。
其他:Terminal-Bench、APEX-Agents等长时agent任务上也拿下多个第一;LMArena/Artificial Analysis指数目前排第1,成本效率高。
更重要的是,成本优势明显:
API定价(per