
【新智元读】传闻中的 Claude Opus 4.8,能确凿如斯刚硬吗?有东谈主呼封神,直言这是 Opus 5,有东谈主吐槽太拉了万宁隔热条PA66生产设备厂家,还不如 Opus 4.7,技艺大佬也来拆台。是夯爆了照旧拉完毕?文度识破。
Anthropic 者归来!
夜,Anthropic 全新发布 Claude Opus 4.8,举夺回行家 AI 座。
Opus 4.8 被定位为款刚硬的复杂任务模子,尤其是在编程、智能体任务和永劫辰理面。
狠的是,微妙的 Mythos 几周之内行将面世!
况且,趁着这鼓励风,Anthropic 紧接着布告好音讯——
以 9650 亿好意思元估值完成 650 亿好意思元融资,越 62 天前 OpenAI 的 8520 亿好意思元的估值!
不外,当东谈主们实测事后,通盘科技界遽然分裂成了两个截然不同的阵营。
面,是以盛名评测媒体 Every 和部分硬核坐蓐力用户为的「狂热派」。
他们呼 Opus 4.8 仍是「封神」,致使直言 Anthropic 此次真实是太低调了,「他们不错凯旋叫它 Opus 5,根底不会有东谈主有异议。」
他们直言,Opus 4.8 是现时市面上「、接近东谈主类灵魂与顶工程师结体」的模子。
但另面,以 Ruby on Rails 创举东谈主 DHH、Redis 之父 antirez 为的「建树者老炮」,却在搪塞网罗上公开拆台。
他们认为 Opus 4.8 的跑分固然险胜老敌手 GPT-5.5,但内容的「编码体感」却依然落伍,致使直指 Anthropic 在基准测试的宣传上犯了要紧舛错。
面,它的「快速时势」、「动态职责流」看起来齐很手,另面,桌面端的体验,似乎又很拉垮。
Opus 4.8 用起来的真实体感,究竟若何?
这是次名不实的挤牙膏,照旧次信得过的大跃迁?
接下来,就让咱们揭开全貌!
这不是 Opus 4.8,是 Opus 5!
先,是以 Every 团队为代表的正。
在长达周的度测试后,他们得出了颠簸论断——这是咱们测试过的强模子,它简直是个怪物。
致使不错说,它不错被叫作念 Opus 5。
暴涨 30 分的「资工程师基准」
在难的「工程师基准」测试中,上代 Opus 4.7 曾让数建树者大失所望,被责问为「难以使用、难以热」。
但 Opus 4.8 此次了场漂亮的翻身仗。
在「强度」时势下,Opus 4.8 拿下了 63 分的分,不仅比 Opus 4.7 夸张地暴涨了 30 分,是以 1 分的渺小势,险胜了直霸榜的 GPT-5.5(62 分)。
团队试着让它去重构个坐蓐别的代码库,后果 Opus 4.8 确凿委用了个能够启动的系统!
后果说明,Opus 4.8 不单是是个补全器用,而是个能在 Repo(代码仓库)别进行长线想考的架构师。
79.6 分全场:击穿「AI 感」的强写手
若是说代码能力是理科生的猖厥,那么写稿能力则是探求模子 EQ 的终轨范。
在 Every 的写稿基准测试中(涵盖论文、广邮件、长篇叙事等真实场景)万宁隔热条PA66生产设备厂家,Opus 4.8 凯旋艳压众模子。
Opus 4.8 跑出了79.6 的对分,远远甩开了自兄弟 Sonnet 4.6(74.5)、老敌手 GPT-5.5(73)以及前代 Opus 4.7(63)。
「这是种终点奇妙的体验。」多位创作家响应。Opus 4.8 地面减少了令东谈主不适的「AI 味」。
当你给它份作风指南后,它能很是地师法你的语气。
它致使展现出了的面目学和东谈主际交易细察力,当你试图和它探讨些刻的面目问题时,它的回应绝不恍惚,而是会「质疑你的预设框架」,提供丰富、动态且其具有度的想考经过。
100 万 Token 的统力,企业专揽把过
除了跑分,Opus 4.8 在复杂学问职责中的阐述号称怪兽。
它依然保持了 100 万 Token 的大高下文窗口,这意味着你不错把整本书的手稿、几周的会议记载,致使个好意思满的企业代码库语气塞给它。
让贸易询查圈畏忌的是,在企业 PPT 生成测试中,Opus 4.8 在 Zero-shot 的情况下,产出了份结构了了、瞎想理、叙事逻辑号称的 PPT。这是往时悉数模子齐法作念到的。
盛名云存储做事商 Box,也在时辰将 Opus 4.8 接入了其 Box AI Agent 并在真实企业数据上进行了测试,后果呈现出碾压态势。
· 报告草拟:在工业品报告任务中,4.8 得分 87(对比 4.7 的 77);消费品发布评估任务中,得分达 90。
· 法律审查:Opus 4.8 能够其地抓取界限范,找出潜在的同错误,并在屡次立测试中保持近乎的结识。
· 财务数据分析:在复杂的银团贷款与双边贷款结构对比中,从零星的源文档中索要准确财务预备的能力,比上代进步了近 8 个百分点。
沃顿商学院证明 Ethan Mollick 的实测是令东谈主拍案叫。
他把几年前数百份去匿名化的研究文献扔进 Claude Code 中的 Opus 4.8。
后果,Opus 4.8 自主完成了提前建议假定、数据清洗、寻找参考文献、进行度分析、肃肃覆按,后凯旋用 LaTeX 要领排版输出了篇度业的微型学术论文!
道理的是,Mollick 证明用 GPT-5.5 Pro 看成这篇论文的「审稿东谈主」,GPT-5.5 挑出了个幻觉舛错和几个小问题,随后 Opus 4.8 坐窝谦让接收,修正。
大约这便是为什么 Every 的 CEO Dan Shipper 抖擞地将 Opus 4.8 称为我方的「心头好」。
个不可想议的软件工程师,同期又是个领有度和同理心的近乎东谈主类的作,二者相融。
沃顿商学院证明实测的个 Opus 4.8 惊艳案例
被群嘲的桌面端与「本事税」
如斯刚硬的模子,为何莫得在全网酿成对的碾压之势?
因为 Opus 4.8 身上职守着两个千里重的镣铐。
「鼎力出遗迹」的代价,是被本事分敲诈
评测机构很快发现了个痛苦的事实:Opus 4.8 的「神阐述」,不错说是病态地依赖于你给它设定的理强度(Effort Level)。
在 /effort 的设定中,唯有当档位拉到「Extra-High」时,Opus 4.8 才是阿谁得分 63 的资工程师;旦降到「High」,它的编码得分会遽然暴跌至 42,秒变平日码农。
在写稿上亦然如斯。High 档位下的 Opus 4.8 文笔雅、逻辑严实;但旦切到 Medium,它就会遽然原形毕露,暴知道 AI 倒霉的套路化写违章习。
网友 Haider 锐地指出了这背后的技艺寂寥:
我闪耀到了个步地,4.8 在低强度下耗尽的 Token,险些和 4.6 在强度下样多。
GPT-5.5 倾向于用少的 Token 拿到的分数;而 4.8 似乎走向了反面万宁隔热条PA66生产设备厂家,隔热条PA66生产设备它在用海量的 Token 堆砌智能。
这就致了 Opus 系列直被诟病的硬伤—— Rate Limits。
由于强度时势度耗尽资源,多数订阅了 $200/ 月 Max 套餐的端用户响应,在启动复杂 Agent 任务时,时时几个小时就会撞上额度墙。
网友 BridgeMind 直言,我方为了测试贯穿穿了两个 200 好意思元的账号。
显然,相较于 OpenAI 深广算力撑持下的优容生态,Anthropic 显得过于吝啬了。
混乱的 UI 瞎想
若是说模子是引擎,那么客户端专揽便是底盘。而 Claude 的底盘,正在严重累赘这台跑车。
多位度评测者指出,Claude 桌面端的瞎想简直是场祸患。
Chat、Code、Cowork 三个立标签页的分割,被责问为「混乱不胜」。
这种割裂的 UI 瞎想,被戏称是「带着时辰移的伤痕和 Anthropic 里面组织架构图的缩影」。(太亮了)
比较之下,OpenAI 的 Codex 桌面端专揽被公认为是「干净、快速,让东谈主嗅觉这便是将来」。
Opus 4.8 的硬核实力如实让许多东谈主想总结 Claude,但倒霉的软件交互体验,终照旧让许多东谈主把 GPT-5.5+Codex 看成日常主力,只在经管复杂任务时,才会握着鼻子切回 Claude。
其倒霉的「笼子」
大牛工程师 Anthony Koeger 是这么评价的:近流行的这句话真实太对了,「个模子的横暴,取决于套在它外面的那层壳(A model is only as good as its harness)。」
而 Opus 此次有些拉跨。
是对于「赤诚」的营销,照旧「跑分罗网」下的政策演叨?
伴跟着 Opus 4.8 的发布,全网也爆发了场对于大模子「跑分真义真义的空前舌战。
这场争论的火索,便是张 Anthropic 我方制作的官发布图。
眼的网友 Aakash Gupta 发现了个不寻常的细节——
在 Anthropic 发布的各模子能力对比图中,在 TerminalCoding 这项上,GPT-5.5 的收成是 78.2,而 Opus 4.8 唯有 74.6。
正常情况下,任何大厂的公关部,齐会把输掉的测试项偷偷从 PPT 上抹去。
但 Anthropic 莫得,他们不仅把失败留在了图表上,致使还主动把 GPT-5.5 那代表告捷的 78.2 作念了加粗经管。
Aakash 对此大加维持,认为这娇傲出 Opus4.8 的中枢点——赤诚。
Q Q:183445502在大型 Agent 任务中,模子力图、致命的失败时势,便是「过度自信」。
而 Opus 4.8 大的隐升,便是它景色承认我方不笃定。官数据娇傲,4.8 在代码中留住颓势却不声张的概率,比 4.7 裁汰了惊东谈主的 4 倍。
此次,Anthropic 的不是跑分,而是赤诚。
在 Vending Bench 测试中,Claude Opus 4.8 的阐述也远逊于 Opus 4.7 和 GPT 5.5
议论词,业界大佬们并不买账。
Ruby on Rails 创举东谈主和 Redis 之父,这两位在建树者社区领有言语权的大神,凯旋对 Anthropic 开炮。
DHH 坦言,自从用了 GPT-5.5 之后,他经验了数次颠簸时刻,这是他在 Claude 阵营很久莫得体会到的了。
antirez 是锐地指出,Anthropic 此次把 GPT-5.5 放在同张图里对比,犯了个「要紧的政策舛错」。
往时的厂商比拼,往往是拿新代模子和我方的上代比。
但此次,Anthropic 非要和 GPT-5.5 比。问题在于,当今全网的「体感」是,GPT-5.5 的写代码能力终点、终点强悍。
当你 Anthropic 拿着张图表,告诉大你的 Opus4.8 跑分比 GPT-5.5 还要。
但咱们用起来却合计并非如斯时,你不仅不行证明你强,反而会让用户合计你们的基准测试是在自娱自乐,失去公信力。
网友 aditya 的吐槽是直击灵魂:
用了快个小时的 Opus 4.8,它根底不值得炒作。
几个很普通的工程任务,它全搞了。
在前端域,网友也感到失意:「用了几个小时 4.8,嗅觉还不如 4.7 顺遂。」
这步地印证了 AI 大 V Chubby 的不雅察:Anthropic 当今仿佛在拚命追逐 OpenAI,而不是以前那样在引通盘行业了。
靠近行将到来的 GPT-5.6,Anthropic 的座显得摇摇欲坠。
有东谈主作念了个速查表,论断是 GPT 5.5 和 Opus 4.8 的赢输取决于理能力和得回个 token 的时辰
6 周的赶工,Anthropic 此次急了
为什么 Opus 4.8 会呈现出如斯复杂、矛盾的评价?
个遮挡冷漠的数据是:Opus 4.8 距离上代 4.7 的发布,只是隔了 6 个星期。
这是 Anthropic 历史上快的次大版块迭代(此前每个 Opus 版块的拒绝至少在 10 周以上)。
资不雅察 BridgeMind 针倡导指出了真相:「这是次仓促的发布,因为 GPT-5.5 正在狂蚕食市集份额。」
那么,信得过的招在那里?
据多音讯证明,Anthropic 信得过的下代旗舰模子,代号为 Mythos,几周内就会面世。
「Opus 4.8 只是个过渡的创可贴,它修补了 4.7 的些舛误,去几个 Agent 榜单上刷了存在感。」业内东谈主士指出,「若是你在期待信得过的智能质变,请屏息恭候 Mythos。」
网友 Machina 的段话,大约是对 Opus 4.8 发布贴切的解读。
咱们仍是跨过了那条线——当今的旗舰模子,仍是出了大多数普通东谈主分裂其劣的能力上限。是以,当今寰宇上只剩下唯个真实的 Benchmark,那便是你我方的职责流。
……
若是连你在我方烂熟于心的职责上齐嗅觉不出各异,那么这些跑分对你来说,就莫得任何真义真义。」
Opus 4.8 到底是神作,照旧次仓促的公关妙技?
调出你难啃的阿谁样式,让实测给你谜底吧。
参考贵寓:
https://every.to/vibe-check/opus-4-8-vibecheckhttps://x.com/bridgemindai/status/2060107380159852900https://x.com/danshipper/status/2060043738752422304?s=20相关词条:铝皮保温施工 隔热条设备 钢绞线 玻璃棉卷毡 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。