过去两年,AI Agent 的能力边界被不断刷新:会写代码、会调用工具、会反思失败,也开始能在任务执行中积累经验。

但一个更现实的问题正在浮现:

如果一个 Agent 真的被部署到真实世界,它还能继续变强吗?

不是在一个固定 benchmark 上反复刷分,也不是只针对某一种任务改 prompt,而是在真实使用中同时面对代码、数学、知识问答、公式计算、复杂推理等不断变化的任务输入,还能不能持续适应、稳定提升?

这正是 EEVEE 想解决的问题。

来自上海交通大学与普林斯顿大学的研究团队发布了 EEVEE,一个面向 LLM Agent 的测试时提示学习框架。它试图把 prompt learning 从 “单一任务优化” 推向更接近真实部署的场景:让智能体在多类型任务不断涌入时,仍然能够继续学习,而不是顾此失彼。

本文转自:凤凰网科技

原文地址: https://tech.ifeng.com/c/8u9uaRq8IbD