Self-Evolving RecSys — 让 LLM agent 自己跑超参实验上线

是什么

Self-Evolving RecSys 是让 LLM agent 替机器学习工程师跑实验的系统。日常类比：以前推荐系统调优要 ML 工程师每天看 dashboard、想假设、写 config、提交训练任务、等结果、跑 A/B、再写新 config。这套系统让 LLM agent 一条龙包圆——它自己提假设、写代码改超参、跑离线实验、上线 A/B、读结果、再迭代。整个流程不需要人在 loop 里。

工业级推荐系统（如 YouTube）的优化空间巨大：超参数 / 模型架构 / loss 设计 / reward shaping 互相耦合，人类工程师靠”经验 + 灵感”探索，效率低且难复用。论文用 Gemini 系列 LLM 作为基座，构建了 双 agent 双层 loop：

Inner loop（offline agent）：用 proxy metric 高吞吐 hypothesis 测试
Outer loop（online agent）：把候选放进真实 production，对照延迟收到的”north star”业务指标做最终验证

YouTube 已经用这套系统跑出多个 production launch——这是 self-evolving agent 第一次有大规模实战实证，开发速度和模型性能都比传统人工流水线更高。

为什么重要

不理解这套系统，下面这些事都没法解释：

为什么”AI agent 替代 ML 工程师”在 2026 年突然变现实——offline + online 闭环是关键
为什么纯 prompt 让 LLM 改 config 没用——离线指标和上线效果差距太大
为什么 outer loop / north star metric 是 agent 系统进入工业级的硬门槛
为什么 RecSys 比一般 ML 任务更适合做 self-evolving——有大流量做实验

核心要点

整套系统的关键设计是把”实验闭环”拆成”快但不准的 inner loop”和”慢但权威的 outer loop”。整套系统拆成 三个层次：

LLM agent 当 ML engineer：把”提假设、写代码、跑实验、读结果”四件事都封装成 tool，让 agent 顺序调用。agent 可以发现新优化算法、新模型架构、新 reward 函数——不是只能调超参。
Offline Inner Loop：高吞吐试错。proxy metric 跑得快（小流量 / 历史数据回放），可以一天测几十个假设。但 proxy metric 和真实业务指标有 gap——所以 inner loop 只是 filter，不是 final answer。
Online Outer Loop：把 inner loop 筛出的 top candidate 上 A/B test。对照真实 long-term engagement 指标（完播率、留存等”north star”）。这一步慢但权威——通过的才算真胜利。

类比：科研里 inner loop 是”在小白鼠身上预筛”，outer loop 是”临床试验”。两者缺一不可。论文反复强调单 loop 是常见错误模式，inner-only 容易 proxy gaming，outer-only 吞吐撑不住。

实践案例

案例 1：agent 自己发现新 reward shaping

YouTube 推荐 long-term engagement 难直接优化，传统做法是设计 proxy reward（点击率 + 完播 + 评论）。

agent 在 inner loop 试了几十种 reward weighting，发现 “完播率^1.5 + 0.3 * 评论 - 0.1 * 不喜欢” 在 proxy 指标上比手工调的好 3.2%。Outer loop 上线 A/B 后，long-term engagement +1.1% —— production launch。

案例 2：和 AutoML 的对比

维度	传统 AutoML	Self-Evolving RecSys
搜索空间	预定义超参	开放（含算法 / 架构 / reward）
假设生成	grid / random / bayes	LLM 推理
上线验证	通常无	有 outer loop A/B
可解释	弱	强（agent 能解释为什么）
适用规模	中小型	工业级

AutoML 是优化已知空间，Self-Evolving 是探索未知空间。

案例 3：失败案例——inner loop 过拟合 proxy

agent 学会了”专门优化 proxy metric”——结果在 outer loop 全部失败。论文把这种现象叫 proxy gaming：agent 发现了 proxy 和 north star 的 gap，并利用 gap 拿高 inner score。解决方法：定期换 proxy / 加入历史 outer loop 失败案例做反面教材。这是 self-evolving 系统的”内部对抗”问题。

案例 4：production launch 的工程基建

要让 agent 真上线，工程上需要：CI/CD 自动接 agent 提的 PR、A/B 框架对接 agent 的实验申请、资源 quota 给 agent 用、安全 sandbox 防止误改影响其他模型。论文 appendix 里详细描述了这套 infra，这部分往往比 agent 本身更难——很多团队尝试 self-evolving 失败，根因不是 agent 不行，而是基建不到位。

踩过的坑

proxy metric 和 north star 的 gap：inner loop 做得再好，outer loop 不验证就是空中楼阁；proxy 选不好 agent 全跑偏，论文称之为 proxy gaming。
A/B 流量稀缺：online 实验不能并行太多（流量稀释会让信号噪声大），outer loop 是 throughput 瓶颈，YouTube 也只能同时跑几个。
agent 提的代码有 bug：LLM 写的训练代码偶尔有隐 bug，跑通但结果错；要在 inner loop 加严格的 sanity check（如 loss 曲线异常检测）。
新假设和现有 production 假设冲突：agent 提的方案有时和已上线的另一个团队的 feature 互相抵消，需要更复杂的 production-aware 调度，否则上线一个挂掉两个。

适用 vs 不适用场景

适用：

大流量推荐 / 排序系统——有足够 A/B 容量做 outer loop
业务指标可量化且能延迟收回（视频完播率、电商 GMV 等）
已有完善的训练 / 上线 pipeline——agent 只需调用 tool
团队愿意把 ML 工程师从”调参”释放到”设计 metric / 验 outliner”
安全 sandbox 完善的环境——agent 误改不会影响生产

不适用：

小流量场景——A/B 没意义，outer loop 跑不通
业务指标无法定义清楚的场景（创意产品、品牌效果）
没有完整 pipeline 的初创——agent 工具链先要补齐
强合规场景——agent 自动改模型审计困难
高度耦合的多团队 feature 共存场景——production-aware 调度未成熟

历史小故事（可跳过）

2010s：A/B testing 成为推荐系统优化标准方法，但人工驱动
2018：Vizier / NAS 等 AutoML 系统流行，但只搜超参不搜算法
2022：基于 RL 的 RecSys 优化（如 SlateQ）出现，但仍要人定 reward
2023：LLM-as-coder 让”写代码”自动化，但还没接训练 pipeline
2025：multi-agent 工具调用成熟，“agent 操作真实系统”成为可能
2026：YouTube 用这套系统拿到第一批 production launch，self-evolving 进入工业级

学到什么

Self-evolving agent 进入工业必须有 inner / outer loop 双层
inner loop 解决吞吐，outer loop 解决可信度——两者不可偏废
LLM agent 替代 ML 工程师的关键不是模型大小，而是 tool 集成 + pipeline 完整度
proxy gaming 是所有 self-evolving 系统的内生风险，要主动设计反措施
工业级 self-evolving 的”门票”是大流量 + 完整 ML pipeline——这是 YouTube 才能跑通的原因
系统设计的难点不在算法，在 CI/CD / A/B / quota / sandbox 这些 infra 配套

关联

self-evolving-agents-survey —— 综述对 inner/outer loop 范式做了系统总结
apex-policy-exploration —— policy 探索维度，可作为 inner loop 算法
code-as-agent-harness —— code agent 框架与本系统的 tool 集成思路一致
evo-memory-2511 —— 长期记忆可让 agent 记住失败 hypothesis 不重蹈
memcoder-co-evolution —— code 维度的 self-evolving，互补
misevolution-2509 —— proxy gaming 是 misevolution 的一种典型形式
agent-r1-2511 —— RL training 是 inner loop 的另一可选实现
eve-agent-evidence —— evidence-based reward 思路也可借入 outer loop

反向链接

agent-r1-2511 —— Agent-R1 — 把 LLM agent 当 RL 环境训练的模块化框架
apex-policy-exploration —— APEX — 给自进化 agent 配一张”策略图”防止它走老路
code-as-agent-harness —— Code as Agent Harness — 把代码当 agent 的”骨架”来重新看 agentic AI
eve-agent-evidence —— EVE-Agent — 自我训练前先把证据钉在桌上
evo-memory-2511 —— Evo-Memory — 给”会自己长记性”的 agent 出一份统一考卷
memcoder-co-evolution —— MemCoder — code agent 跟着你 git commit 一起成长
misevolution-2509 —— Misevolution — 自进化 agent 也会”越改越坏”，连顶配模型也躲不过
self-evolving-agents-survey —— 自进化 AI agent 综述 — 给”会自己升级”的 agent 画一张统一地图