
摘要:
当大模型开始“主动思考”
凤凰网科技 出品
作者|Dale、姜凡
编辑|董雨晴
4月23日下午,腾讯混元 Hy3 preview 语言模型低调发布并开源。这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。
事实上,不用怀疑,这是混元重建后训练的第一个模型,也是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上都实现了大幅的提升。
这个版本背后,有一个大家一直在关注的身影。不久前加盟腾讯的AI技术专家姚顺雨。这是他在腾讯混元团队主导推进的首个重要版本,其设计目标直指一个核心问题,腾讯AI基建的补课进度如何,大模型能否从“能说会道”变得“能做事、能负责”?

基本功很扎实,模型智商在线
我们先用两个简单问题测试了下Hy3 preview的基础思考能力,一道经典的洗车难题,一道照镜子举手题。
Hy3 preview都表现出了合格的思考能力。


不过,洗车问题上它可能思考的有点过多了。
如果直接看评分的话,Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务中表现突出,并在最新的清华大学求真书院数学博资考(26春)和 全国中学生生物学联赛(CHSBO 2025) 中取得优异成绩,展现了可泛化的强推理能力。

据腾讯方面表露,代码和智能体是 Hy3 preview 提升最为显著的方向。
当我们在 WorkBuddy 里把“被 AI 生图的库克加入小米汽车”这句模糊指令抛给混元 Hy3 preview 时,它的反应和传统聊天机器人很不一样。在 WorkBuddy 的实际测试中,它没有立刻丢出“这是假的”这样简单的结论,而是先进入了一种工作状态。
它首先评估了任务:“这听起来是个需要仔细核查的消息”,接着规划出一条完整的行动路径——“让我从多个角度搜索验证”。在 WorkBuddy 的体验里,这个开场展现的是一个关键转变:它不再是一个等着你一步步给指令的被动工具,而是在产品中呈现出了主动规划、分解复杂任务的能力。

随后,模型在 WorkBuddy 环境中开始了系统性的信息搜集。在接下来的几分钟里,它自主发起了六轮工具调用,每次都有明确目标。它先并行搜索了中英文媒体对此事的报道,以获取事件概览;紧接着并没有停留在媒体层面,而是直奔问题核心信源,打算拿到苹果官方的声明和小米高管的直接辟谣内容。
这个过程很像调查记者“寻找原始证据、交叉验证”的工作方法。测试中有一个细节值得注意:在计划获取苹果官方声明时,模型明确解释了理由“这是最权威的信源”。这说明,在 WorkBuddy 的交互里,它不仅会执行搜索,还对信源的权威层级有内在的理解。
信息搜集完毕后,真正的智能才开始显现。我们在 WorkBuddy 中看到的不是一堆杂乱的网页摘要,而是一份结构清晰、论证严谨的调研报告。报告先通过一张“多方信源对比表”,把苹果官方、小米高管、中外权威媒体等超过五个信源的信息、立场和权威性评级直观呈现出来,给了用户一份证据的“权重地图”。

接着,它从这些纷杂信息中抽丝剥茧,提炼出“库克卸任时间线”、“P图伪造证据”、“官方辟谣”等几个无可争议的已知事实,为逻辑推理铺平了道路。
这个过程最精彩的部分是“逻辑冲突点分析”。模型从四个维度对传闻进行了彻底解构:第一是时间线矛盾,指出传闻发生时库克仍是苹果CEO,与“加入小米”在时间上不成立;第二是职位性质矛盾,苹果官方已公布库克卸任后将转任执行董事长,这意味着他依然深度绑定苹果,不可能全职加盟竞争对手;第三是商业竞争逻辑矛盾,从商业常识层面指出此举的极端不合理性;第四才是直接的伪造证据,即多家媒体已确认图片为P图。这个分析顺序本身就很见功力——它没有先揪着“P图”这个最表层的漏洞,而是先从事物内在逻辑(时间、身份、商业关系)出发,层层推进,最后用确凿的证据一锤定音,这种论证方式严谨而有力。

最终,我们在 WorkBuddy 的测试结果里看到了明确的结论:“传闻可信度为 0”,还附上量化的信度评分。更有趣的是,它还主动补充分析了“为何这个‘梗’会火”的社会传播背景,使整个分析报告不仅回答了“真假”,也触及了“为何传播”的深层维度,展现出一种超越任务本身的、对人类社交语境的理解。

整个测试过程,混元 Hy3 preview 在 WorkBuddy 中所展现的,不是更快的搜索速度或更多的数据搬运,而是一条可被清晰感知的“思维链”:任务理解与规划 → 主动获取多维度证据 → 交叉验证与权威性评估 → 逻辑推理与矛盾分析 → 结构化输出与综合判断。
此外,据了解,Hy 3.0 在推理效率上提升达 40%,在知识理解、数学计算、写作表达及逻辑推理等多个维度都达到了行业一线水准,指令遵循、多轮对话和长文理解能力也获得了显著优化。要说提升最大的,肯定还是智能体能力,从各个开源模型的大小与智能体综合表现来看,Hy3 preview 展现出了高性价比。

这验证了此前腾讯高管预告时提到的“复杂推理”和“Agent能力”的实质性进展。对于内容从业者、研究人员或任何需要处理海量信息的人来说,这个“能主动查证、能输出可靠结论”的AI助手,带来的或许将是一场工作范式的变革。
除此之外,腾讯的产品全家桶基本上都接入了。目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。

变化的混元,快速补课的腾讯
姚顺雨在2025年底回国并加入腾讯,被直接任命为总办首席AI科学家,直接向总裁刘炽平汇报,并同时统领AI基础设施与大语言模型两大核心部门。
这一任命被外界解读为腾讯在AI赛道求变决心最直接的体现,旨在集中资源,让一度因起步较晚、内部重心分散而落后的混元大模型进入全力冲刺阶段。姚顺雨本人对于混元大模型充满信心,他明确表示:“混元的目标是对标全球最顶尖的一批大模型。”
在他主导下,腾讯混元团队在2026年初连续取得多项突破。
而到了2026 年2月,腾讯混元重建了预训练和强化学习的基础设施,以及模型追求实用性的三个原则:
1、能力体系化: 不推崇“偏科”,因为即使是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。
2、评测真实性: 主动跳出易被“刷榜”的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的“真实战斗力”。
3、性价比追求:实用性离不开商业合理性,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能用得起、用得好。
在这期间,混元团队还开源了混元图像3.0图生图模型,在视觉生成领域持续发力;随后联合复旦大学发布了评测大模型上下文学习能力的权威基准CL-bench,直指当前全球顶尖模型在实时推理上的共同短板;同时推出了面向消费级硬件的产业级2比特端侧量化模型HY-1.8B-2Bit,将部署门槛大幅降低至普通终端设备可承载的范围。
并且,在2026年4月,团队发布并开源了混元3D世界模型2.0,这是一个能够从文本、图片或视频生成可交互、可编辑3D资产的多模态模型,其性能在多项指标上对标甚至超越了现有的商业级模型。
而这一切技术积累的集大成者,正是这一次发布的Hy3 preview。该版本由姚顺雨亲自带队测试,内部反馈显示,其在复杂推理、长文本处理和多轮追问等维度均有明显提升,特别是在作为智能体执行任务的能力上,在“元宝”应用中的实验已获得“非常明显的正向收益”。
值得一提的是,无论是从模型版本代号,还是腾讯此次低调的态度,都能看出来,腾讯或许并不满足于当前的技术成果。姚顺雨也特别表示,Hy3 preview是混元大模型重建的第一步,“我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。”
目前,Hy3 preview的成本相比上一代模型大幅下降。在腾讯云大模型服务平台 TokenHub 上,Hy3 preview 输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。
本文转自:凤凰网科技
原文地址: https://tech.ifeng.com/c/8sYPQuP3nK1

小同爱分享2 个月前
疫情,就是让人抑郁,又没了感情。 - 小同爱分享
小同爱分享2 个月前
所谓生活不如意,就是缺少人民币。 - 小同爱分享