广场
最新
热门
资讯
我的主页
发布
rickawsb
2026-02-19 16:41:14
关注
谷歌今天发布了Gemini 3.1 Pro,刚看到测试评分,感觉这是冲着屠榜来的(模型军备竞赛继续,利好半导体!)😂
官方定位很明确:专为复杂任务设计,比如深度研究、工程难题、长链推理和agentic工作流。
核心亮点:1M token上下文窗口(保持不变)
多模态支持(文本+图像+视频+音频+代码)
输出最高64k tokens
性能对比当前主流模型(Claude Opus 4.6、GPT-5.2/5.3等):
ARC-AGI-2(最难的抽象推理基准):
Gemini 3.1 Pro 77.1%,领先Claude 4.6(68.8%)约8-9个百分点,
领先GPT-5系列20-30+个百分点。这是最大进步,代表核心推理质的飞跃。
GPQA Diamond(PhD级科学推理):94.3%,小幅领先Claude 4.6(91.3%)和GPT-5.2(92.4%),差距2-3个百分点,基准已接近饱和。
SWE-Bench Verified(真实软件工程任务):80.6%,领先Claude 4.6(约76-77%)3-5个百分点,领先GPT明显(5-15%)。
其他:Terminal-Bench、APEX-Agents等长时agent任务上也拿下多个第一;LMArena/Artificial Analysis指数目前排第1,成本效率高。
更重要的是,成本优势明显:
API定价(per 1M tokens,基于Vertex AI / Gemini API最新数据,≤200k上下文标准价):
Gemini 3.1 Pro:输入 $2.00,输出 $12.00(>200k上下文翻倍到$4/$18)
Claude Opus 4.6:输入 $5.00,输出 $25.00
GPT-5.2 / 5.x:输入通常$10–15+,输出$30–75+(高端tier更高,具体视版本)
优势幅度:输入:Gemini比Claude便宜约60%(2 vs 5),比GPT系列便宜70–80%以上。
输出:Gemini比Claude便宜约52%(12 vs 25),比GPT便宜60–80%以上。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
1人点赞了这条动态
赞赏
1
评论
转发
分享
评论
0/400
评论
暂无评论
热门话题
查看更多
#
Gate2月透明度报告
7.37万 热度
#
加密市场上涨
41.36万 热度
#
特朗普称伊朗战事接近尾声
5.29万 热度
#
微策略再砸12.8亿美元增持BTC
8621.75万 热度
#
黄金白银走高
19.79万 热度
热门 Gate Fun
查看更多
Gate Fun
KOL
最新发币
即将上市
成功上市
1
GLG
GALACTIC GOLW
市值:
$2420.68
持有人数:
1
0.00%
2
MAOJIAN
信阳毛尖
市值:
$2465.42
持有人数:
2
0.18%
3
SXTB
双信通宝
市值:
$2434.48
持有人数:
1
0.00%
4
CNY-1
CNY-1
市值:
$0.1
持有人数:
0
0.00%
5
PEACE
Peace Truce Coin
市值:
$2417.24
持有人数:
1
0.00%
置顶
Gate 广场内容挖矿奖励继续升级!无论您是创作者还是用户,挖矿新人还是头部作者都能赢取好礼获得大奖。现在就进入广场探索吧!
创作者享受最高60%创作返佣
创作者奖励加码1500USDT:更多新人作者能瓜分奖池!
观众点击交易组件交易赢大礼!最高50GT等新春壕礼等你拿!
详情:https://www.gate.com/announcements/article/49802
网站地图
谷歌今天发布了Gemini 3.1 Pro,刚看到测试评分,感觉这是冲着屠榜来的(模型军备竞赛继续,利好半导体!)😂
官方定位很明确:专为复杂任务设计,比如深度研究、工程难题、长链推理和agentic工作流。
核心亮点:1M token上下文窗口(保持不变)
多模态支持(文本+图像+视频+音频+代码)
输出最高64k tokens
性能对比当前主流模型(Claude Opus 4.6、GPT-5.2/5.3等):
ARC-AGI-2(最难的抽象推理基准):
Gemini 3.1 Pro 77.1%,领先Claude 4.6(68.8%)约8-9个百分点,
领先GPT-5系列20-30+个百分点。这是最大进步,代表核心推理质的飞跃。
GPQA Diamond(PhD级科学推理):94.3%,小幅领先Claude 4.6(91.3%)和GPT-5.2(92.4%),差距2-3个百分点,基准已接近饱和。
SWE-Bench Verified(真实软件工程任务):80.6%,领先Claude 4.6(约76-77%)3-5个百分点,领先GPT明显(5-15%)。
其他:Terminal-Bench、APEX-Agents等长时agent任务上也拿下多个第一;LMArena/Artificial Analysis指数目前排第1,成本效率高。
更重要的是,成本优势明显:
API定价(per 1M tokens,基于Vertex AI / Gemini API最新数据,≤200k上下文标准价):
Gemini 3.1 Pro:输入 $2.00,输出 $12.00(>200k上下文翻倍到$4/$18)
Claude Opus 4.6:输入 $5.00,输出 $25.00
GPT-5.2 / 5.x:输入通常$10–15+,输出$30–75+(高端tier更高,具体视版本)
优势幅度:输入:Gemini比Claude便宜约60%(2 vs 5),比GPT系列便宜70–80%以上。
输出:Gemini比Claude便宜约52%(12 vs 25),比GPT便宜60–80%以上。