姚顺雨带队，混元重建后首个模型交卷！热乎实测

摘要：

当大模型开始“主动思考”

凤凰网科技出品

作者｜Dale、姜凡

编辑｜董雨晴

4月23日下午，腾讯混元 Hy3 preview 语言模型低调发布并开源。这是一个快慢思考融合的混合专家模型，总参数 295B，激活参数 21B，最大支持 256K 上下文长度。

事实上，不用怀疑，这是混元重建后训练的第一个模型，也是混元迄今最智能的模型，在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上都实现了大幅的提升。

这个版本背后，有一个大家一直在关注的身影。不久前加盟腾讯的AI技术专家姚顺雨。这是他在腾讯混元团队主导推进的首个重要版本，其设计目标直指一个核心问题，腾讯AI基建的补课进度如何，大模型能否从“能说会道”变得“能做事、能负责”？

基本功很扎实，模型智商在线

我们先用两个简单问题测试了下Hy3 preview的基础思考能力，一道经典的洗车难题，一道照镜子举手题。

Hy3 preview都表现出了合格的思考能力。

不过，洗车问题上它可能思考的有点过多了。

如果直接看评分的话，Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务中表现突出，并在最新的清华大学求真书院数学博资考(26春)和全国中学生生物学联赛(CHSBO 2025) 中取得优异成绩，展现了可泛化的强推理能力。

据腾讯方面表露，代码和智能体是 Hy3 preview 提升最为显著的方向。

当我们在 WorkBuddy 里把“被 AI 生图的库克加入小米汽车”这句模糊指令抛给混元 Hy3 preview 时，它的反应和传统聊天机器人很不一样。在 WorkBuddy 的实际测试中，它没有立刻丢出“这是假的”这样简单的结论，而是先进入了一种工作状态。

它首先评估了任务：“这听起来是个需要仔细核查的消息”，接着规划出一条完整的行动路径——“让我从多个角度搜索验证”。在 WorkBuddy 的体验里，这个开场展现的是一个关键转变：它不再是一个等着你一步步给指令的被动工具，而是在产品中呈现出了主动规划、分解复杂任务的能力。

随后，模型在 WorkBuddy 环境中开始了系统性的信息搜集。在接下来的几分钟里，它自主发起了六轮工具调用，每次都有明确目标。它先并行搜索了中英文媒体对此事的报道，以获取事件概览；紧接着并没有停留在媒体层面，而是直奔问题核心信源，打算拿到苹果官方的声明和小米高管的直接辟谣内容。

这个过程很像调查记者“寻找原始证据、交叉验证”的工作方法。测试中有一个细节值得注意：在计划获取苹果官方声明时，模型明确解释了理由“这是最权威的信源”。这说明，在 WorkBuddy 的交互里，它不仅会执行搜索，还对信源的权威层级有内在的理解。

信息搜集完毕后，真正的智能才开始显现。我们在 WorkBuddy 中看到的不是一堆杂乱的网页摘要，而是一份结构清晰、论证严谨的调研报告。报告先通过一张“多方信源对比表”，把苹果官方、小米高管、中外权威媒体等超过五个信源的信息、立场和权威性评级直观呈现出来，给了用户一份证据的“权重地图”。

接着，它从这些纷杂信息中抽丝剥茧，提炼出“库克卸任时间线”、“P图伪造证据”、“官方辟谣”等几个无可争议的已知事实，为逻辑推理铺平了道路。

这个过程最精彩的部分是“逻辑冲突点分析”。模型从四个维度对传闻进行了彻底解构：第一是时间线矛盾，指出传闻发生时库克仍是苹果CEO，与“加入小米”在时间上不成立；第二是职位性质矛盾，苹果官方已公布库克卸任后将转任执行董事长，这意味着他依然深度绑定苹果，不可能全职加盟竞争对手；第三是商业竞争逻辑矛盾，从商业常识层面指出此举的极端不合理性；第四才是直接的伪造证据，即多家媒体已确认图片为P图。这个分析顺序本身就很见功力——它没有先揪着“P图”这个最表层的漏洞，而是先从事物内在逻辑（时间、身份、商业关系）出发，层层推进，最后用确凿的证据一锤定音，这种论证方式严谨而有力。

最终，我们在 WorkBuddy 的测试结果里看到了明确的结论：“传闻可信度为 0”，还附上量化的信度评分。更有趣的是，它还主动补充分析了“为何这个‘梗’会火”的社会传播背景，使整个分析报告不仅回答了“真假”，也触及了“为何传播”的深层维度，展现出一种超越任务本身的、对人类社交语境的理解。

整个测试过程，混元 Hy3 preview 在 WorkBuddy 中所展现的，不是更快的搜索速度或更多的数据搬运，而是一条可被清晰感知的“思维链”：任务理解与规划 → 主动获取多维度证据 → 交叉验证与权威性评估 → 逻辑推理与矛盾分析 → 结构化输出与综合判断。

此外，据了解，Hy 3.0 在推理效率上提升达 40%，在知识理解、数学计算、写作表达及逻辑推理等多个维度都达到了行业一线水准，指令遵循、多轮对话和长文理解能力也获得了显著优化。要说提升最大的，肯定还是智能体能力，从各个开源模型的大小与智能体综合表现来看，Hy3 preview 展现出了高性价比。

这验证了此前腾讯高管预告时提到的“复杂推理”和“Agent能力”的实质性进展。对于内容从业者、研究人员或任何需要处理海量信息的人来说，这个“能主动查证、能输出可靠结论”的AI助手，带来的或许将是一场工作范式的变革。

除此之外，腾讯的产品全家桶基本上都接入了。目前，Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线，微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。

变化的混元，快速补课的腾讯

姚顺雨在2025年底回国并加入腾讯，被直接任命为总办首席AI科学家，直接向总裁刘炽平汇报，并同时统领AI基础设施与大语言模型两大核心部门。

这一任命被外界解读为腾讯在AI赛道求变决心最直接的体现，旨在集中资源，让一度因起步较晚、内部重心分散而落后的混元大模型进入全力冲刺阶段。姚顺雨本人对于混元大模型充满信心，他明确表示：“混元的目标是对标全球最顶尖的一批大模型。”

在他主导下，腾讯混元团队在2026年初连续取得多项突破。

而到了2026 年2月，腾讯混元重建了预训练和强化学习的基础设施，以及模型追求实用性的三个原则：

1、能力体系化：不推崇“偏科”，因为即使是代码智能体的单一应用，也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

2、评测真实性：主动跳出易被“刷榜”的公开榜单，通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的“真实战斗力”。

3、性价比追求：实用性离不开商业合理性，深度协同模型架构和推理框架的设计，大幅降低任务成本，让智能用得起、用得好。

在这期间，混元团队还开源了混元图像3.0图生图模型，在视觉生成领域持续发力；随后联合复旦大学发布了评测大模型上下文学习能力的权威基准CL-bench，直指当前全球顶尖模型在实时推理上的共同短板；同时推出了面向消费级硬件的产业级2比特端侧量化模型HY-1.8B-2Bit，将部署门槛大幅降低至普通终端设备可承载的范围。

并且，在2026年4月，团队发布并开源了混元3D世界模型2.0，这是一个能够从文本、图片或视频生成可交互、可编辑3D资产的多模态模型，其性能在多项指标上对标甚至超越了现有的商业级模型。

而这一切技术积累的集大成者，正是这一次发布的Hy3 preview。该版本由姚顺雨亲自带队测试，内部反馈显示，其在复杂推理、长文本处理和多轮追问等维度均有明显提升，特别是在作为智能体执行任务的能力上，在“元宝”应用中的实验已获得“非常明显的正向收益”。

值得一提的是，无论是从模型版本代号，还是腾讯此次低调的态度，都能看出来，腾讯或许并不满足于当前的技术成果。姚顺雨也特别表示，Hy3 preview是混元大模型重建的第一步，“我们希望通过这次开源和发布，获得来自开源社区和用户的真实反馈，帮助我们提升 Hy3 正式版的实用性。与此同时，我们也在继续扩大预训练和强化学习的规模，提升模型的智能上限，并通过与腾讯众多产品的深度Co-Design，持续提升模型在真实场景中的综合表现，并开始探索特色模型能力。”

目前，Hy3 preview的成本相比上一代模型大幅下降。在腾讯云大模型服务平台 TokenHub 上，Hy3 preview 输入价格最低1.2元/百万tokens，输入命中缓存价格0.4元/百万tokens，输出价格最低4元/百万tokens。

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8sYPQuP3nK1

姚顺雨带队，混元重建后首个模型交卷！热乎实测

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

姚顺雨带队，混元重建后首个模型交卷！热乎实测

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索