Rubrics综述：Agent时代，如何定义一个「好答案」？,agent society

近年来，随着大模型从简单问答，走向深度研究、医疗咨询、多模态生成和长程 Agent 任务，一个基础问题变得越来越难回答：我们到底应该怎样判断模型输出的质量？

在许多真实且复杂的场景中，我们可能没有标准答案也没有可验证答案正确性的信号来评估模型输出的正确性。

以 Deep Research 报告评估为例，传统方法可能只是对比生成报告和参考报告的文本差异，或者让大模型给一个总体分数。但一篇好报告并不一定要和参考报告写得一样，也很难用一个笼统分数概括。它需要同时满足多个要求，例如是否回答了用户问题、覆盖了关键信息、引用了可靠证据、论证是否清晰、结论是否有用等等。

Rubrics 的作用，就是把这些模糊的「好报告」标准拆解成明确的评价项，让评审者或 judge model 逐项检查和打分。这样不仅能判断报告总体好不好，还能指出具体问题，并进一步把这些细粒度反馈转化为训练信号，帮助模型针对覆盖不足、证据不充分或逻辑不清等问题进行优化。

这意味着，大模型的训练与评测正在从单一正确性信号，转向多维度、可解释的质量标准。Rubrics，正在成为连接人类期望、任务要求和模型行为的重要接口。

近日，来自中国人民大学高瓴人工智能学院的研究团队发布综述论文《The Rules of the Game: A Survey of Rubrics for Large Language Models》。论文共 40 页，系统梳理了 Rubrics 在大模型中的定义、构造方法、训练应用、评测场景与开放挑战。论文同时维护了持续更新的 GitHub 项目，方便社区跟踪这一快速发展的方向。

为什么现在需要 Rubrics？

早期大模型的任务往往具有相对清晰的输入输出形式，而且答案的正确性是容易评估的。例如问答任务可以比较标准答案，代码任务可以运行测试用例，数学任务可以验证最终结果。对于这些任务，准确率、执行成功率或规则化奖励能够提供较直接的训练和评测信号。

但随着模型能力扩展，任务难度也发生了明显变化。大模型正在被要求完成更开放、更高风险、更复杂的任务。例如：自动搜索资料并生成研究报告；在医疗、法律、金融等专业领域给出分析；调用外部工具完成多步任务；在多模态场景中生成或理解复杂内容。此时，输出质量通常不再由一个答案决定，而是由多个维度共同决定。

Rubrics 的价值正在这里显现出来。它将「好答案」拆解为一组明确的评价项，例如事实正确性、覆盖度、证据支撑、推理严谨性、安全性、格式合规性和实际可用性。评测者可以逐项打分，也可以将这些分数聚合为最终结果。与一个黑箱分数相比，Rubrics 提供的是可检查、可调整、可诊断的质量标准。

本文聚焦于回答以下五个问题：

Rubrics 是什么？ Rubrics 如何构造？ Rubrics 如何用于模型训练？ Rubrics 如何用于任务评测？开放性问题和挑战

图 1：上半部分是章节总览；下半部分展示了 rubrics 在不同任务上的示例。

Rubrics 到底是什么？

在教育评估中，rubric 通常指一套评分指南：它说明评估者应该看哪些方面，以及不同质量水平分别意味着什么。放到 LLM 中，Rubrics 可以理解为一组自然语言形式的评价标准，每个标准对应一个具体、可评估的质量维度。

这篇综述给出了统一形式化：一个 rubric set 可以由若干 rubric item 组成，每个 item 包含自然语言描述（具体的 rubrics 示例可以参见图 1 下半部分）和重要性权重；对于输入任务和模型输出， judge model 逐项给出分数，再通过平均、加权求和或隐式聚合得到整体评价。

更重要的是，论文对 Rubrics 与几个容易混淆的概念进行了区分和讨论。LLM-as-a-Judge 解决的是「谁来评」，Rubrics 解决的是「按什么标准评」；reward model 通常直接输出一个标量分数，而 Rubrics 将评价标准显式列出；RLVR 依赖自动可验证的答案，而 Rubrics 更适合那些需要多维度判断、难以完全验证的开放式任务。

Rubrics 如何构造？

Rubrics 是否有效，首先取决于它们本身是否足够好。一个过于宽泛的标准，例如 “回答应当有帮助”，很难提供稳定的训练和评测信号；一个过于细碎或重复的标准，又可能带来冗余评分和噪声。

综述将 Rubrics 构造方法划分为四类，呈现出从简单到复杂、从静态生成到动态演化的路线。

图 2：四种不同的 rubrics 生成范式，包含直接生成、对比生成、迭代优化和在线演化。

第一类是直接生成。给定任务指令、候选答案或参考证据，强大的 LLM 可以一次性生成一组评价标准。

第二类是对比生成。相比只看一个答案，对比生成会输入偏好对，例如一个高质量回答和一个低质量回答，让模型总结二者差异，从而提取更有判别力的标准。

第三类是迭代优化。研究者开始不再把 Rubrics 构造当成一次生成任务，而是引入迭代地验证、分解、过滤等流程。例如检测某个标准是否能稳定区分偏好对，递归拆分过粗的标准，最终得到更原子、更紧凑的 rubric set。

第四类是在线与共同演化。对于强化学习和 Agent 任务来说，静态 Rubrics 可能很快过时。因此，部分工作尝试让 Rubrics 随着 policy rollouts 更新，将新出现的错误行为纳入评价标准，使 Rubrics 与模型训练过程共同演化。

Rubrics 如何用于模型训练？

在模型训练中，Rubrics 的核心作用是把复杂质量要求转化为可优化的监督信号。相比一个整体偏好标签，Rubrics 能告诉模型「哪里做得好、哪里需要改」，因此特别适合开放式任务和多步 Agent 任务。

用于 policy model training：让模型学会生成好答案

标准的基于 rubrics 做 policy RL 的方式是：给定输入和模型生成的回答，judge model 按 Rubrics 逐项打分，再将分数聚合为一个奖励，用于 PPO、GRPO 等强化学习算法。这个过程可以作用在最终答案上，也可以作用在完整轨迹上。对于工具调用 Agent、深度研究 Agent 或多模态推理模型，轨迹级 Rubrics 尤其重要，因为很多错误并不会直接体现在最终答案中。示例图如下：

图 3：四种不同的 rubrics 生成范式，包含直接生成、对比生成、迭代优化和在线演化。

不过，将多维 Rubrics 简单加权为一个标量奖励是比较粗粒度且不灵活的，因为不同标准之间可能存在依赖、冲突或硬约束关系。例如医疗问答中的安全性不应只是一个普通加分项，而可能是 veto 条件（一旦违反则 reward 为 0）。基于此，许多工作进一步提出设计更先进更鲁棒的 rubric reward：包括可学习的 Rubric 权重、引入 veto 或 saturation 机制、结合环境反馈、按难度进行 curriculum 训练，以及在 RL 算法内部结合 rubrics 设计优势估计。

还有一类工作将 Rubrics 从「事后打分工具」推进为「生成过程中的指导」。模型可以先生成或读取 Rubrics，再据此规划回答；也可以把未满足的 Rubric 转化为反馈，指导下一轮改写。这意味着 Rubrics 不仅能告诉模型一个输出得多少分，还能帮助模型探索更高质量的输出空间。

用于 reward model training：让奖励模型更可解释、更可靠

Rubrics 也被越来越多地用于 reward model training。传统 reward model 往往只输出一个标量分数，难以解释为什么某个回答更好。引入 Rubrics 后，reward model 可以被训练为先依据标准进行分析，再给出偏好判断；也可以输出多个维度的分数，并通过显式聚合得到最终 reward。根据综述的整理，Rubrics 在 reward model training 中主要发挥三类作用。

图 4：rubrics 在 reward model 训练中的三类工作。

1. 提升奖励模型的可解释性

传统 reward model 通常直接输出一个标量分数，评价标准隐含在模型参数中，研究者很难判断模型究竟依据什么做出偏好判断。引入 Rubrics 后，奖励模型可以被训练为先围绕给定标准进行逐项分析，再输出最终偏好判断；也可以对不同 rubric 维度分别打分，再通过显式聚合得到最终 reward。这样一来，奖励模型不再只是一个黑箱打分器，而是能够展示「为什么这个回答更好」「哪些维度影响了最终分数」。

2. 提供更细粒度的 reward model 训练信号

除了最终偏好是否正确之外，Rubrics 还可以作为结构化参考单元，用来约束奖励模型的中间分析过程。例如，一些工作会将人工标注或教师模型生成的理由拆解为 rubric-level 的参考信号，并在训练中鼓励 reward model 的分析过程与这些标准保持一致；也有方法要求模型先生成 Rubrics，再进行分析和判断，并通过额外的 proxy model 评估生成 Rubrics 的质量，从而把 Rubrics 本身也纳入优化目标。

3. 用于构造更高质量的训练数据

传统偏好数据中往往包含长度、格式、语气等浅层线索，reward model 可能学会这些表面特征，而不是学习真正决定回答质量的因素。Rubrics 可以帮助识别影响回答质量的核心维度，并据此构造更有针对性的训练样本，使奖励模型更关注事实性、完整性、安全性、推理质量等实质标准，而不是依赖「回答更长」「格式更整齐」这种。

Rubrics 如何用于评测？

除了训练，Rubrics 另一个常见的用途是模型评测。对于开放式任务，Rubrics 相当于一份显式的评价标准：它定义了需要检查的维度，如何给分等等。本文按照通用任务和领域特定的任务对已有的基于 rubrics 评估的 benchmark 进行了分类：

在通用任务中，Rubrics 已被用于推理能力、深度研究、开放式生成、通用 Agent 能力和对齐评测。例如在数学推理任务中，评测不再只看最终答案，还会检查中间步骤的正确性；深度研究任务的评测会同时关注信息覆盖、证据支撑等维度；Agent 任务相关的评测则进一步关注工具选择、参数调用、和多轮执行可靠性等方面。

图 5：rubrics 在通用任务评估上的代表性工作。

在专业领域中，Rubrics 的价值更明显。例如，在医疗问答领域，人们需要专家制定标准来检查模型回答中的医学正确性、安全风险和沟通质量等等；在法律和金融任务中，我们需要评估事实适用、过程可审计、风险披露和实务可操作性；在这部分，综述按照评估的对象（中间轨迹和最终答案）和标准（事实性、安全性、专业表达和实际可用性）对已有的工作进行了详细的分类和讨论。

图 6：rubrics 在特定领域任务评估上的代表性工作。

开放问题和挑战：Rubrics 不是银弹

Rubrics 的优势在于显式、结构化和可解释，但这些特点也带来了新的问题。综述总结了多个值得关注的开放挑战。

首先是 reward hacking。模型在训练过程中可能学会 hack rubrics 的表面特征，而不是真正提升任务质量。如何设计更稳健的 Rubrics、并让设计 Rubrics 随训练过程的更新机制，是未来重要方向。

其次是 rubric-based reward model 的泛化。很多 Rubrics 来自特定任务或领域，reward model 可能过拟合这些标准而丢失泛化性。未来需要研究如何让奖励模型在新任务、新领域下仍然有效地基于 Rubrics 进行 reward 计算，尤其是在医疗、法律、金融和科学推理等高门槛领域。

第三是评测偏差。Rubrics 可以提高评测的可解释性，但并不能自动消除 bias。Rubric 的写法，judge model 的选取等等都会对最终的评测产生 bias。如何设计更鲁棒更稳定的 Rubric-based evaluation 是一个需要解决的问题。

此外，个性化 Rubrics 和 Rubric 安全也正在成为新问题。个性化 Rubrics 可以更好地刻画用户偏好，但也可能过度迎合浅层偏好，甚至与安全标准冲突。与此同时，Rubrics 本身也可能成为攻击面：恶意或隐蔽的标准改写可能悄悄改变 judge 的偏好方向，并进一步影响训练数据和模型行为。

结语：把「规则」写清楚，才可能真正优化模型行为

这篇综述的核心意义，不只是罗列了 Rubrics 相关工作，而是把一个正在快速扩张的研究方向放进了统一框架中：Rubrics 是大模型训练与评测中的显式质量接口。它定义标准，组织反馈，连接人类偏好、任务约束与模型优化。

随着大模型继续走向开放式、高风险和 Agentic 应用，系统需要的不只是更强的生成能力，还需要更清楚的质量定义。Rubrics 的价值正在于此：它让「好答案」不再只是一个模糊直觉，而成为一组可以讨论、检查、修改和优化的明确标准。