Claude Opus 4.6凌晨空降：实测封神，你的下一位同事何必是人？

出品 | 网易智能

作者 | 辰辰

编辑 | 王凤枝

你只需要投入创意、审美与逻辑，剩下的苦力活，全交给它。

2月6日凌晨，Anthropic正式推出了Claude Opus 4.6。这不再是一个只会写打油诗的“小助手”，而是一个真正能处理百万美元级复杂业务的“超级智能体”。

它像一位经验丰富的专业分析师，能在几分钟内穿梭于成百上千份财报、监管文件中，梳理逻辑、核对细节，产出深度报告。大量的实测显示，Opus 4.6在处理需要严密逻辑、专业术语理解和多步推理的任务时，已经与竞争对手拉开了明显的代差。

首批拿到内测资格的一线开发者和金融分析师已经“炸锅”了。

Opus 4.6展现出了惊人的“长久专注”和“执行力”：它彻底告别了前代的“偷工减料”，在面对复杂的系统排错时，表现出近乎执拗的彻底性；它更攻克了困扰行业的“近因偏差”，即便是在20万Token之前提到的指令，它依然能死死记住并严格执行。

这是AI从“玩具”向“工具”，再向“数字同事”迈出的关键一步。

AI的进化：

从“聊天框”到“数字雇员”

以往我们用AI，更像是找个“会写诗的小助手”；而Opus 4.6的目标是成为一个能处理百万美元业务的“数字同事”。Anthropic产品负责人Scott White就此还提出了一个颠覆性的概念：“氛围办公(Vibe Working)”。

不同于通用大模型的“泛泛而谈”，Opus 4.6专为高价值专业场景重构。过去，分析师需要穿梭在成百上千份财报、监管文件和实时资讯中，这种重复的、高压的数据搬运是最大的“阻力”。

现在，你只需要把这一堆乱麻丢给它。Opus 4.6不再是泛泛而谈，而是能像专业分析师一样，在几分钟内梳理逻辑、核对细节，产出深度报告。这意味着，你的工作不再是手动点点点，而是投入创意、审美与逻辑，剩下的“苦力活”交给它。

大量实测显示，Opus 4.6彻底没了前代的“偷工减料”，在面对复杂系统排错时，即便不加指令，也会表现出近乎执拗的彻底性；还攻克了困扰行业已久的“近因偏差”，即便是在20万+Token之前提到的指令，它依然能死死记住并严格执行，这种“长久专注”是处理金融审计等严肃任务的基础。

Github首席产品官马里奥·罗德里格斯(Mario Rodriguez)强调：“Opus 4.6能够有效应对开发人员日常面临的复杂、多步骤编程工作，尤其适用于需要规划和工具调用的智能体工作流。”

性能天花板：

硬核参数与基准测试深度拆解

据Anthropic称，Opus 4.6在智能体编程、计算机使用、工具使用、搜索和金融领域均属行业领先，且通常具备显著优势，部分基准测试更是吊打业内对手。

不过，对于刚上线的新模型，与其听宣发词，不如直接看看那些新鲜出炉的实测战报。

·击败GPT-5.2的“降维打击”

在衡量金融、法律等高价值知识工作任务的指标GDPval-AA上，Opus 4.6展现出了惊人的统治力：比前代Opus 4.5提升了190个Elo分；比竞争对手OpenAI的GPT-5.2更是高出约144个Elo分。

这意味着在处理需要严密逻辑、专业术语理解和多步推理的任务时，Opus 4.6已经拉开了代差。

·100万(1M)Token：彻底终结“上下文崩塌”

对于金融分析师来说，一次性读入过去五年的财报是刚需。Opus 4.6首次在Opus级别模型中引入了百万Token的上下文窗口(Beta版)。这意味着你在处理长文时，不再需要人为拆成几部分依次喂给AI。

最令产品界兴奋的是它对“上下文崩塌”的改善。很多大模型在对话拉长后会变得“痴呆”，但在MRCR v2(针尖测试)中，Opus 4.6在100万Token的深海里依然能保持76%的精准提取率，而同门师弟Sonnet 4.5仅有18.5%。

·“慢思考”与“快反应”：自适应思考(Adaptive Thinking)

这是Opus 4.6最具人性化的设计。以往的AI要么不假思索，要么过度思考。Opus 4.6引入了Effort(努力程度)控制参数：

·Low/Medium：处理简单、重复性工作，追求低延迟、低成本。

·High(默认)/Max：处理深奥的科学难题或财务预测，它会进入“深度思考”模式，反复推演、审视自己的逻辑。

处理简单工作时，它会快速响应；面对复杂的财务预测或科研难题，它会自动进入“深度思考”模式。这种“快慢结合”的路径，不仅让体验更顺滑，也帮企业省下了不必要的算力成本。

从“聊天”到“协同”：

产品形态大迁移

Opus 4.6带来的不仅仅是参数的提升，更是产品形态的巨变。它直接把原本“一对一”的对话变成了“多对多”的团队协作。

·智能体团队(Agent Teams)：不再是孤胆英雄

在Claude Code中，Anthropic推出了一项新功能：Agent Teams(预览版)。你不再是面对一个窗口，而是可以瞬间拉起一个“数字部门”。你可以让多个AI智能体在后台并行工作，它们会自主分工、互相协作。

智能体A负责阅读底层架构；智能体B负责重构代码；智能体C负责撰写测试用例。

而用户呢？可以像上帝视角一样，随时在不同的智能体线程中切换(通过Shift+Up/Down)，这种协作密度是此前任何模型都无法提供的。

·深入办公腹地：Claude in Excel & PowerPoint

Anthropic深知，金融和知识工作者的战场在Office家族。Opus 4.6的Excel插件以及PPT插件能自动推断乱七八糟的表格逻辑，甚至能读取你的公司PPT母版和字体，直接生成一份符合品牌要求的路演PPT。

这意味着，“分析数据—整理表格—制作汇报”这一完整的职场闭环，现在可以由Opus 4.6自行完成。

一线实测反馈：

为什么效率更高了？

Resolve AI等早期合作伙伴的生产力测评显示，Opus 4.6解决了两个职场痛点：

·痛点一是AI懒惰(Laziness)。以前的Claude在面对长路径任务时会“偷工减料”。实测发现，Opus 4.6表现出了一种近乎执拗的彻底。它在进行系统故障排查时，即使没有被明确指令“不要跳步”，它也会穷尽所有可能性进行深度调查。

·痛点二是近因偏差(Recency Bias)。传统AI容易“喜新厌旧”，更关注对话末尾的信息。但测试显示，即便是在20万Token之前提到的指令和工具规格，Opus 4.6依然能死死记住并严格执行。

AI博主@newlinedotco在深度体验Opus 4.6后认为，Opus 4.6确实解决4.5版本中遇到的那些令人烦恼的“小故障”(比如跳过关键步骤或语法错误)，改进并非浮于表面。

他实测重试时间减少25%，完成率提升20%，UI自动化失败率也大幅降低，认为效率提升真实可见，适合API集成以及文档重度用户。

不少早期用户也都提到，Opus 4.6的长会话能力大幅提升，智能体团队是亮点。网红博主@bridgemindai直播2小时测试后总结道：“Opus 4.6的上下文窗口更好，明显能容纳更多内容而不丢失主线；智能体团队是真正的亮点，并行工作的各个智能体彻底改变了构建工作流的方式。”但他也提到，Opus 4.6的编程能力与Opus 4.5大致相同，没有发现性能飞跃。

@bridgemindai建议，如果是为了原始编程能力而升级，别指望有飞跃。如果是为了智能体工作流而升级，仅团队功能就很值。

但设计师@RinnaTheCat直观感受新版Opus缺少人性化，认为“Opus 4.6更像个机器人，它过于专注任务，却少了一些...自然。我想我还是更喜欢Opus 4.5一些。”

安全与防御：

智力越高，责任越重

Anthropic一直以“安全先锋”自居。在Opus 4.6发布的同时，他们公布了最详尽的System Card(系统名片)。

为了应对越来越强的编程能力，Anthropic开发了6种全新的网络安全探针。这些探针能实时监测AI是否在生成恶意代码或尝试非法越权。同时，公司还在加速“AI驱动的网安防御”，利用Opus 4.6自动修补开源软件的漏洞，用AI的盾去抵挡AI的矛。

在安全性指标上，Opus 4.6的“过度拒绝率”(即AI因为胆小而拒绝回答正常问题)达到了历史最低。这意味着它变得更成熟了：它知道什么时候该说不，什么时候该大胆干活。

结语：“Vibe Working”时代降临

Claude Opus 4.6的发布，是AI从“语言模仿者”向“高级分析师”进化的分水岭。它对金融研究的垂直深耕，对1M上下文窗口的极致驾驭，以及对智能体协同的深刻理解，都预示着一个不需要“手动点点点”的未来正在加速到来。

这也正是3500亿估值背后的逻辑：Anthropic正在创造一种新的“数字阶层”，它们不是工具，而是具备极高智力水平、能独立完成复杂业务的“数字雇员”。

对于每一个知识工作者来说，现在的关键不再是学习如何操作软件，而是学习如何“管理一个由Claude组成的精英团队”。

如果你是一名金融与法律从业者，建议立即尝试Opus 4.6的长文本检索能力，尤其是处理多年份的对标分析，它的稳定性将刷新你的认知。

如果你是一名企业开发者，可以重点研究Opus 4.6的自适应推理和上下文压缩。这两个功能是目前市场上控制推理成本与任务连贯性的最佳方案。

如果你还是初出茅庐的职场新人，那就不要再纠结于PPT排版和Excel公式，转而精进你的业务逻辑和任务拆解能力，这才是“Vibe Working”时代的核心资产。

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8qWCuEa6mLA

Claude Opus 4.6凌晨空降：实测封神，你的下一位同事何必是人？

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

Claude Opus 4.6凌晨空降：实测封神，你的下一位同事何必是人？

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索