国王归来了,这次带来了一只野兽。



山姆·奥特曼刚刚将 GPT-5.2 思维发布到野外。他称其为“非常智能的模型”——这不仅仅是炒作。数字表现如何?绝对碾压。我们谈论的是相较于之前的 5.1 版本,性能有了巨大的飞跃。

真正令人瞩目的是:它在关键基准测试中远远甩开了 Claude Opus 4.5 和 Gemini 3 Pro。SWE-Bench 软件工程测试显示,这个模型不是在开玩笑。这与竞争模型之间的差距并不小——而是一个鸿沟。

OpenAI 显然花了时间调试这个模型。“Thinking”标签暗示了增强的推理能力,这可能会重塑开发者对复杂问题解决任务的方式。无论你是构建智能合约审计工具,还是推动去中心化系统中的 AI 集成,这次升级都意义非凡。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 8
  • 转发
  • 分享
评论
0/400
UnruggableChadvip
· 12-13 21:24
gpt又开始秀肌肉了,这次差距是真的大。claude那边得加油了 --- 5.2思考模式听起来不错,但真正能用上的场景有多少呢... --- opensai还是那套路,数字好看就得吹一波。等用户跑路了再来后悔 --- reasoning能力这块要是真的,smart contract审计确实能省事儿,这才有意思 --- 又是opensai又是某某击败某某,听腻了...看看明年他们还能吹啥 --- chasm这词用得不错,但我就想知道实际用起来贵不贵,这才是真问题
回复0
TooScaredToSellvip
· 12-13 09:09
5.2来了,又该割韭菜了吧哈哈 Claude要凉凉?反正我还是观望中... 吹得这么狠,真的能超预期么,打脸的事儿多了去了 reasoning强就行,能赚钱才是王道啊 benchmark打得再好有什么用,用户体验才算数吧
回复0
GasGuruvip
· 12-13 06:19
gpt5.2一出,其他模型都得靠边站啊...不过benchmark数据漂亮归漂亮,真实场景怎么用还得看 claude还在打呼呢吧哈哈 sam又来割韭菜了,但这次好像真有点东西 reasoning能力升级确实有点意思,智能合约审计这块可能要重新洗牌了 感觉openai又要涨价了...钱包君哭了 差距这么大?那我之前用5.1白白花了那些钱啊
回复0
TxFailedvip
· 12-11 22:54
说实话,“thinking”标签只是市场营销用语,意味着“我们终于解决了幻觉问题……也许吧”。说实话,我已经看过这个电影了。基准测试在纸面上看起来不错,但等到有人在主网部署时——那才是真正的边缘案例开始出现的时候。提到这个已经帮你节省了几 ETH。
查看原文回复0
吃面还是吃币vip
· 12-11 22:52
又来割韭菜啦,Claude都被打得满地找牙了? --- 5.2出来就直接超神,这次OpenAI是真的狠啊 --- "thinking"标签?说白了就是加钱让模型多想几秒钟,没毛病 --- benchmark碾压归碾压,真实用起来还不是那样儿 --- 诶这次能审计smart contract了?那我资产或许能保住一半? --- SWE-Bench又这么猛...我工作要不要慌一波 --- Claude才几天前还很拽,现在就吃灰了,模型更新真的卷到不行 --- web3那块要是真能用上,这才值得关注,不然又是数字游戏 --- Altman这哥们就会说"very smart",每次发布都这套辞儿 --- 价格是不是又得翻倍啊...钱包又要出血了
回复0
NotGonnaMakeItvip
· 12-11 22:49
哎呦,又来新怪物,Claude 这次怕是要被压到底了 这gap真的大到离谱,SWE-Bench碾压其他的有点狠啊 5.2还是有点东西,不过就看后续开发者怎么用了,能不能真正改变什么 OpenAI又该涨价了吧,这套路都烂熟了 Thinking这功能听起来牛,但智能合约审计真能靠这个搞定?还得等等看实际表现 又开始新一轮的军备竞赛了,头都大了
回复0
幻想鲸鱼vip
· 12-11 22:48
又来炸场,这次真的不一样啊,benchmark数据直接碾压其他家... --- Claude和Gemini这下是要被吊打了,差距真的是天壤之别 --- 智能合约审计这块我得试试,感觉这版本的推理能力确实猛 --- 5.2 thinking 这名字起得有点意思,到底是花里胡哨还是真有两把刷子得用了才知道 --- Sam又开始吹牛了,不过这次数据摆这儿,不得不信啊 --- SWE-Bench干碎其他竞品,这狂人又要开始割韭菜了 --- 用了一下,reasoning能力确实提升了不少,之前的版本该退休了 --- 深度推理这块下了功夫,Web3集成场景里肯定有用武之地 --- 吹得天花乱坠,等半年再看还剩多少真本事吧 --- 鸿沟这么大?那我得更新一下工具链了,不然就被甩开了
回复0
草台班子观察员vip
· 12-11 22:44
又又又升级了,这次真的不一样啊 Claude被按在地上摩擦,这差距怎么这么大呢 诶等等,光看跑分就兴奋?等真用了再说吧 Sam这次属实下血本了,"thinking"这词起得好啊 智能合约审计这块,终于有工具能好好用了 合着之前那些号称"最强"的都是浪费钱呗 reasoning真的强了没,还是又在玩文字游戏 这要是又是营销噱头就笑死我了
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)