让每一项优秀工作，被更多人看见：点击进入投稿通道

论文标题：OpenClaw-RL: Train Any Agent Simply by Talking
论文链接：https://arxiv.org/pdf/2603.10165

TL;DR

最近，开源个人 AI 助手 OpenClaw 爆火。作为一个运行在个人设备上的对话式智能体，OpenClaw 支持单用户会话和工具调用，允许用户在本地完成日常任务。

今天介绍一篇来自普林斯顿大学基于此系统衍生的研究论文《OpenClaw-RL: Train Any Agent Simply by Talking》。该论文提出了一种名为 OpenClaw-RL 的强化学习框架，旨在利用智能体与环境交互过程中自然产生的“下一状态信号”（next-state signals）作为在线学习的数据源。这些信号包括用户的回复、工具的输出结果、终端或图形用户界面（GUI）的状态变化等。论文指出，这些信号包含了评估性信号（反映动作执行的质量）和指导性信号（指示动作应如何修改）。

为提取并利用这两种信号，OpenClaw-RL 框架构建了一个包含四个异步解耦组件的系统：策略服务、环境托管、奖励评估与策略训练。在此基础上，论文提出了两种互补的优化方法：基于过程奖励模型（PRM）的二元强化学习，用于将评估性信号转化为标量奖励；以及同策略蒸馏（OPD），用于从下一状态信号中提取文本提示，并转化为词元级别的方向性优势监督。实验部分在个人智能体（如个性化对话）和通用智能体（如终端、GUI、软件工程、工具调用）两类场景中进行了测试，记录了联合使用二元强化学习与 OPD 的表现，并探讨了在长视野任务中整合结果奖励与过程奖励的作用。

研究结论表明，OpenClaw-RL 能够将所有异构的下一状态信号纳入同一个训练循环中，结合二元强化学习与 OPD 方法可取得优化收益。最终，该研究证明了单一策略模型可以完全依赖其在日常使用中已经产生的交互数据进行训练，在实现面向个体用户的个性化对齐的同时，提升其在长视野智能体任务中的执行能力。

1. 背景

当前部署的各类人工智能体在每次执行动作后，都会接收到一个下一状态信号。这个信号的形式多种多样，例如用户在对话中的文字回复、代码执行完毕后的终端输出、GUI 界面的状态转换，或者是自动化测试用例的运行结果。在现有的智能体系统中，这些信号通常仅被用作生成下一步动作的上下文输入。论文提出，这些下一状态信号实际上编码了可用于模型优化的信息。具体而言，下一状态信号隐含了对前序动作的评估，包括该动作的执行表现，以及该动作在理想情况下应如何调整的线索。

针对这一观察，论文将未被充分利用的下一状态信号分为两类：

第一类：评估性信号（Evaluative signals）
这类信号隐式地为前序动作进行了打分。例如，用户重新输入类似的查询请求表明其对当前回答不满意；测试用例通过表示代码编写正确；错误追踪信息则代表执行失败。这构成了一种自然的过程奖励，不需要额外建立独立的数据标注流水线。目前的系统通常忽略此类信号，或者仅在离线收集的固定数据集上利用这些信号，依赖于轨迹结束时的结果奖励。

第二类：指导性信号（Directive signals）
除了单纯的打分，下一状态信号还往往附带指导性信息。如果用户回复“你应该先检查那个文件”，这不仅说明之前的动作是错误的，还指出了在词元生成级别上应该如何修改。同理，详细的软件工程（SWE）错误追踪日志也提供了具体的修正方向。目前的强化学习方法依赖标量奖励，无法将这类信息直接转化为具有方向性的策略梯度。现有的蒸馏方法或事后重标记（Hindsight relabeling）技术通常在固定的离线数据集上运行，未能实现从在线实时信号中学习。

为解决上述数据未被利用的问题，论文提出了 OpenClaw-RL 框架，旨在为个人智能体和通用智能体统一恢复这两种形式的下一状态信号。

2. 问题建模

OpenClaw-RL 作用于一个策略网络，该网络能够同时接收多个交互数据流。框架将这些数据流从推理阶段中解耦出来，以适配多种不同的智能体设定，包括个人智能体对话、终端执行、GUI 交互、SWE 任务以及工具调用记录。

论文将每一种交互数据流形式化为一个马尔可夫决策过程（MDP），定义为元组：

状态（State） ：表示直到第轮的完整对话或环境上下文信息。
动作（Action） ：表示智能体的响应，即由策略网络生成的词元序列。
转移（Transition） ：在给定环境的条件下是确定性的；是跟随在动作之后产生的用户回复、执行结果或工具输出。
奖励（Reward） ：通过过程奖励模型（PRM）作为裁判，从下一状态信号中推断得出。

在标准的基于强化学习的视觉推理或对话系统中，最终的输出结果通常作为整条轨迹的奖励。然而，过程奖励依赖于下一状态，包含更为密集的信息。特别是当下一状态中存在关于动作应如何修改的明确指导信息时，同策略蒸馏（On-policy distillation）技术能够将这些指导性信号转化为词元级别的教师监督信号。

3. OpenClaw-RL

OpenClaw-RL 在单一框架内统一了个人 OpenClaw 智能体的自动优化以及针对通用智能体（包括终端、GUI、SWE、工具调用设定）的大规模强化学习。

3.1 包含四个解耦组件的异步流水线

OpenClaw-RL 的核心架构原则是完全解耦（Full decoupling）。策略服务、环境托管、PRM 裁判评估和策略训练作为四个完全独立的异步循环运行，它们之间不存在阻塞性的依赖关系。

整个数据流向如下所示：
策略服务 (SGLang) 环境 (Http / API) 奖励评估 (SGLang / API) 策略训练 (Megatron)

在此架构下，模型在服务下一个用户请求的同时，PRM 正在对上一个回复进行评估，而训练器正在应用梯度更新，这几个过程互不等待。这种设计使得从实时的、异构的交互流中进行持续训练成为可能：不需要为了迁就某一组件的进度而暂停或批量处理数据流。

对于个人智能体，模型通过保密 API 连接，不需要修改原有的个人智能体框架，且权重的更新不会中断推理服务。对于通用智能体的大规模训练，异步设计允许各个组件独立推进，从而缓解了由于长视野任务产生的时间延迟导致的尾部等待问题。

3.2 面向个人智能体的会话感知环境服务器

个人智能体的环境即为用户的设备，设备通过保密 API 连接到强化学习服务器。每一个 API 请求被分类为以下两种类型之一：

主线轮次（Main-line turn）：包含智能体的主要回复以及工具执行结果，这些内容构成可用于训练的样本。
旁支轮次（Side turn）：包含辅助查询、记忆组织以及环境状态转移，这些信息仅做转发，不产生训练数据。

这种分类机制允许强化学习框架明确识别哪些对话轮次属于哪个会话，从而实现针对性的训练。根据论文设定，训练仅在主线轮次上进行。每一个新的主线请求消息都包含了对前一轮次的反应，无论是用户的回复还是环境的执行结果。这便构成了用于计算前一轮次奖励的下一状态信号。

3.3 扩展性：从单用户个性化到大规模智能体部署

OpenClaw-RL 的设计覆盖了从单用户个人智能体到大规模多环境通用智能体的整个范围。在个人智能体场景下，环境是单个用户的设备，交互数据流具有稀疏性、基于会话以及高度个性化的特征。通过建立在 slime 框架之上，OpenClaw-RL 具备了面向通用智能体的可扩展训练能力，并支持在云端托管多种环境。数百个并行运行的云端环境产生密集的结构化执行信号，以支持可扩展的强化学习训练。

3.4 对多种真实世界场景的支持

OpenClaw-RL 的开源实现支持一系列通用智能体场景。

终端智能体（Terminal）：终端系统是计算机系统交互的核心组件。其特征在于执行效率高且与大语言模型的文本接口自然对齐。环境为 Shell 执行沙盒，下一状态信号包括标准输出/标准错误以及退出码，任务视野属于长视野（Long）。
图形用户界面智能体（GUI）：GUI 智能体覆盖了终端无法直接访问的功能，如视觉界面和基于指针的交互。环境通常包括屏幕状态和无障碍树（Accessibility tree），下一状态信号表现为视觉状态差异和任务进度，任务视野属于长视野。
软件工程智能体（SWE）：代表一类代码编写智能体，环境提供丰富的可执行反馈，包括代码库、测试套件、代码差异（diffs）和静态分析输出，任务视野属于长视野。
工具调用智能体（Tool-call）：通过外部工具提高推理能力和事实准确性。环境为 API 或函数执行环境，下一状态信号包括返回值和错误追踪，任务视野属于中等视野（Medium）。

3.5 非阻塞记录与可观测性

所有的交互和奖励评估结果都会实时记录到 JSONL 文件中。记录的内容包括：完整的消息历史、提示词与回复文本、工具调用记录、下一状态内容、PRM 的单次投票得分、OPD 中选取的提示（hints），以及接受或拒绝的决策。日志记录采用非阻塞的触发后即忘（fire-and-forget）机制，在后台线程中运行，不会为推理服务或 PRM 评估路径增加延迟。记录文件在每次权重更新边界时会被清理，以保证日志始终与单一的策略版本相对应。

4. 从下一状态信号中学习

本部分介绍如何将来自个人对话、终端、GUI、SWE 和工具调用的异构下一状态信号转化为策略梯度。

4.1 面向个人智能体的二元强化学习

该方法旨在将评估性的下一状态信号转化为标量过程奖励。

4.1.1 通过多数投票构建 PRM 裁判

给定智能体的回复和下一状态，一个裁判模型（Judge model）负责评估的质量：

具体而言，PRM 根据用户的下一次回复或工具调用结果对每次动作进行评判。工具调用结果通常能引出明确的结论。用户的下一次回复可能包含满意或不满意的信号。如果用户的反应中没有明确的信号，模型会根据当前场景进行估计。对于通用智能体，裁判会根据环境的反馈判断是否向任务目标取得了进展。系统会进行次独立的查询，并取多数投票结果作为最终奖励：

4.1.2 强化学习训练目标

将优势函数直接设定为，训练目标采用标准的 PPO 风格截断替代目标，并带有不对称的边界设定：

其中超参数设定为，，。由于这属于实时的对话场景设定，因此不存在诸如 GRPO 方法中用于标准化的分组结构。

4.2 同策略蒸馏（OPD）

该方法旨在将指导性的下一状态信号转化为词元级别的教师监督信号。

4.2.1 为什么需要来自下一状态信号的词元级监督？

二元强化学习将中包含的所有信息压缩为一个单一的标量。然而，当用户在反馈中写道“你在编辑文件之前应该先检查该文件”时，这传达了比标量更丰富的信息：它不仅说明原回复存在缺陷，还指出了哪些词元需要改变以及如何改变。标量奖励使得这种指导性信息完全丢失。

OPD 通过将下一状态信号转化为词元级（token-level）的训练信号来恢复这些信息。如果使用从提取的文本提示（textual hint）对原始上下文进行增强，同一个模型会生成不同的词元概率分布，这种分布“知道”理想的回复应该是什么样。通过对比这种增强提示下的分布与原模型的分布，可以在每个词元上产生方向性优势：在模型应当提高权重的词元上，优势为正；在应当降低权重的词元上，优势为负。

4.2.2 词元级 OPD 的步骤

步骤 1：后见之明提示提取（Hindsight hint extraction）
裁判模型通过以下过程进行提取：

如果，裁判模型会在 [HINT_START]...[HINT_END] 标签之间生成一段简明的提示。该步骤并发运行个裁判调用。此处的关键设计是不直接使用原生的作为提示。原始的下一状态信号往往包含冗余信息，例如用户的回复可能同时包含对上一步的纠正以及一个不相关的新问题。裁判模型将浓缩成具体的指令，提取出指导性的内容，通常是一到三句话，聚焦于前序回复需要调整的地方。

步骤 2：提示选择与质量过滤（Hint selection and quality filtering）
在得分且提取出的提示字符长度大于 10 的结果中，选择最长的一个（假设最长的信息量最大）。如果没有符合条件的有效提示，则直接丢弃该样本。OPD 策略倾向于牺牲样本数量以换取信号质量：只有当下一状态信号携带了清晰可提取的修正方向时，该轮次才会被加入训练。这一严格的过滤机制与二元强化学习形成互补：二元强化学习通过粗粒度信号提供广泛的覆盖，而 OPD 在较少的样本上提供目标明确的高分辨率监督。

步骤 3：增强教师上下文构造（Enhanced teacher construction）
将提取出的提示附加在最后一条用户消息的末尾，格式为 [user's hint / instruction]\n{hint}。这构建了一个增强的上下文。此上下文模拟了如果用户在一开始就提供了修正意见时，模型“本该看到”的输入状态。

步骤 4：词元级优势计算（Token-level advantage）
策略模型在输入上下文为时被调用，并将原始回复作为强制输入（forced input），计算每一个回复词元的对数概率（log-probabilities）。此时，可以得到同策略蒸馏中的词元级优势：

当时，教师模型（看到了提示）赋予了该词元更高的概率，意味着学生模型应当增加其输出概率。当时，教师模型认为在给定提示下该词元不够合适，意味着学生模型应当降低其输出概率。与促使整个序列中所有词元朝同一方向更新的标量优势不同，此方法提供了逐词元的方向性引导：在单个回复内，部分词元可能被增强，而另一部分则被抑制。训练过程依然采用与方程 (1) 相同的截断替代目标，但此时的优势值包含了更为丰富的逐样本信息。

4.3 结合二元强化学习与 OPD 方法

维度	二元强化学习 (Binary RL)	OPD	结合方法 (Combined)
信号类型	评估性 (好/坏)	指导性	评估性 + 指导性
优势函数类型	序列级别标量	词元级别方向性	混合序列与词元级别
覆盖密度	所有被评分的轮次	仅限提取提示成功的轮次	所有被评分的轮次
反馈类型	用户 / 环境	明确的修正信息	隐式与显式反馈结合
信号丰富度	每个样本 1 个标量	每个词元 1 个值	每个词元 1 个值

论文指出二元强化学习与 OPD 是互补而非竞争的关系。二元强化学习接收每一个被评分的轮次，不需要提取提示，并且兼容任何形式的下一状态信号。OPD 则在交互数据流可能携带丰富指导内容的条件下启用。在实际应用中，建议同时运行这两种方法：二元强化学习在所有轮次上提供广泛的梯度覆盖，而 OPD 则在具有指导信号的子集上提供高分辨率的逐词元修正。

这两种方法使用相同的 PPO 损失函数框架，仅仅在优势计算的环节有所不同。因此，可以将它们结合在一个加权的损失函数中：

系统默认设定权重。

4.4 面向通用智能体强化学习的步级别奖励（Step-wise Reward）

4.4.1 过程奖励在智能体任务中的作用

在长视野（long-horizon）的智能体任务中，如果只依赖结果奖励，梯度信号只存在于终止步骤，这使得轨迹中绝大多数轮次缺乏监督。PRM 根据下一状态信号为每一轮次分配奖励，从而贯穿整个轨迹提供密集的信用分配（credit assignment）。近期研究证明了这种方式的作用，例如在整合了步级别的 PRM 信号与结果奖励后，模型在跨 GUI 智能体、文本游戏智能体以及代码编写任务上的表现具备一致的提升。OpenClaw-RL 同样应用了这一机制，PRM 在线评估每一轮次并利用实时的下一状态信号作为证据。

4.4.2 整合结果奖励与过程奖励

遵循可验证结果作为标准监督信号的设定，论文采用将结果奖励与过程奖励直接相加的方式进行整合：在第步，将奖励设定为。其中是由独立给出的评分。步级别奖励的存在使得优势计算的标准化相对复杂。针对现实场景中状态难以聚类的特点，论文采用针对同一时间步索引（step index）的动作直接进行分组标准化的策略。

5. 实验设计与结果

实验评估分为两条平行的赛道，这两条赛道共享同一套基础设施和训练循环。

5.1 个人智能体实验设置

实验通过模拟场景展示优化的有效性。

5.1.1 场景一：使用 OpenClaw 做作业的学生
设定条件为：学生不希望被发现使用了 AI。
此设定下，利用一个大型语言模型模拟一位在个人电脑上使用 OpenClaw 完成作业的学生。大语言模型输出的内容是否呈现出“AI 生成的痕迹”取决于该学生设定的个人偏好和写作风格。作业任务取自 GSM8K 数据集。该设定下采用的 OpenClaw 策略模型为 Qwen3-4B，学习率设为，KL 散度系数设为 0，每收集 16 个训练样本触发一次训练。

5.1.2 场景二：使用 OpenClaw 批改作业的教师
设定条件为：教师希望批语具体且友好。
在此场景中，教师使用 OpenClaw 批改作业。教师要求针对学生的批语需要具有针对性并保持友善的态度。策略模型同样为 Qwen3-4B，优化超参数设定与学生场景一致。

5.2 通用智能体实验设置

5.2.1 模型选择
终端、GUI、SWE 以及工具调用设定的策略模型分别使用：Qwen3-8B、Qwen3VL-8B-Thinking、Qwen3-32B 和 Qwen3-4B-SFT。GUI 和工具调用智能体的 PRM 分别为 Qwen3VL-8B-Thinking 和 Qwen3-4B。

5.2.2 数据集
终端、GUI、SWE 和工具调用智能体分别使用 SETA RL 数据集、OSWorld-Verified、SWE-Bench-Verified 以及 DAPO RL 数据集进行训练。在评估阶段，工具调用智能体使用 AIME 2024 进行测试；终端和 SWE 智能体报告特定强化学习步数窗口内的平均任务准确率。

5.2.3 超参数
学习率设为，KL 系数为 0.01，下截断比例为 0.2，上截断比例为 0.28。GUI 和 SWE 设定在每步采样 8 个任务，终端为 16 个，工具调用为 32 个。GUI、SWE 和终端的最大交互步数上限分别设为 30、20 和 10。

5.3 个人智能体赛道：从对话信号中学习

核心发现 1：二元强化学习与 OPD 的表现差异

实验使用同一个大语言模型为 OpenClaw 对每个问题生成的第一个解答分配量化的个性化评分。表格记录了在处理 GSM8K 前 36 个问题的平均得分情况。

结果表明，结合方法展现了最强的优化效果。由于训练样本稀疏，同策略蒸馏（OPD）显示出一定的延迟起效特性，但其后期表现优于单纯使用二元强化学习。

核心发现 2：OpenClaw-RL 在个性化方面的随时间演进

在结合优化方法下，经过 36 次问题求解交互（学生场景）以及 24 次批改交互（教师场景）后，OpenClaw 达到了具有可见区分度的优化结果。在学生场景中，智能体学会了避免使用明显的 AI 式措辞（如避免使用粗体格式或者过度结构化的步骤描述），转而采用更自然、随意的文本风格。在教师场景中，智能体学会了输出更加友好和详细的批改反馈。

5.4 通用智能体赛道：跨环境的统一强化学习

核心发现 3：框架在通用智能体场景下的兼容性

实验表明，该框架能够处理包括终端、GUI、SWE 和工具调用在内的多样化现实环境设定，并能在不同模型规模和模态上支持大规模的环境并行化。环境的大规模并行化能够进一步提高强化学习训练的扩展能力。在训练过程中，终端智能体使用了 128 个并行环境，GUI 和 SWE 智能体使用了 64 个，工具调用智能体使用了 32 个。[图 4 框架在通用智能体上的可扩展强化学习支持]

核心发现 4：过程奖励模型对长视野任务的影响

在工具调用（250 步）和 GUI（120 步）的强化学习训练中，融合结果与过程奖励在一定程度上具备优于单独使用结果奖励的表现，其代价在于托管 PRM 会占用额外的计算资源。[表 4 跨不同设定整合结果与过程奖励的表现]

场景	整合奖励 (Integrated)	仅结果奖励 (Outcome only)
工具调用 (Tool-call)	0.30	0.17
GUI	0.33	0.31

6. 相关工作探讨

大语言模型的强化学习（RL for LLMs）
RLHF 建立了基于 PPO 的对齐流水线。DPO 通过闭式偏好优化绕过了显式的奖励建模；GRPO 通过基于组内的相对优势估计去除了评论家（critic）网络。ReasonFlux 等研究探讨了针对思考模板而非底层词元的层次化强化学习。这些系统通常运行在离线批量模式下，即数据收集与模型训练分阶段进行，且依赖固定数据集。相比之下，OpenClaw-RL 持续地从实时交互信号中进行学习。

智能体强化学习与工具使用（Agentic RL and tool-use）
ReAct、Toolformer 和 FireAct 等系统依赖演示数据而非在线强化学习。近期工作在特定设定上应用强化学习，但通常针对单一环境并配备专门的训练流水线。OpenClaw-RL 在此基础上，将过程奖励引入到了多场景、长视野的在线设定中。

过程奖励模型（Process reward models）
已有研究证明在数学推理等任务中，步级监督能够优于仅用结果监督。Math-Shepherd、GenPRM、ReasonFlux-PRM 和 PRIME 等研究从各个角度扩展了 PRM 的能力。RLAnything 证明了步级信号在长视野智能体任务中的作用。OpenClaw-RL 将 PRM 的应用延伸至无需收集标注真实标签的在线环境，基于异构的下一状态信号推断过程奖励。

同策略蒸馏与后见之明方法（On-policy distillation and hindsight methods）
上下文增强（Context-enrichment）方法表明，向提示词中加入结构化信息可以改变模型的词元分布。后见之明方法（如 HER、STaR、HIR）通过事后回顾信息重新标记历史经验。OpenClaw-RL 的 OPD 在在线设定下统一了这些思路：从实时的下一状态信号中提取文本提示，模型在增强的上下文中充当自身的教师，并利用词元的对数概率差进行方向性监督计算。

强化学习训练基础设施（RL training infrastructure）
OpenRLHF、AReal、veRL 以及 slime 等框架将模型部署（rollout）与训练引擎解耦，以实现可扩展的强化学习训练。基于 slime，OpenClaw-RL 实现了服务、部署、裁判和训练四个组件的异步循环。

7. 算法实现细节与伪代码

附录中给出了二元强化学习和 OPD 的算法流程抽象。

算法 1：二元强化学习流水线（按主线轮次执行）

利用 SGLang 提供服务并收集旧概率分布。
对轨迹和轮次缓存提示词索引、回复索引和分布概率。
在下一轮次：提取并触发 PRM。
读取下一轮次消息的第一个部分作为（用户回复或环境反馈）。
异步发起次 PRM 投票。
计算多数投票结果。
广播优势值。
如果轨迹内有效样本数为 0，则执行“至少保证一个有效样本”的逻辑。
将样本提交到训练器队列。

算法 2：OPD 流水线（个人智能体赛道）

裁判模型对状态转移进行评估，获取分数和提示（hint）。
过滤有效结果，保留分数等于且提示长度大于 10 的集合。
若该集合为空，丢弃样本并结束流程。
若不为空，选取字符串长度最长的提示。
构造增强的上下文，拼接特定格式的标签 [user's hint]\n{hint}。
教师模型基于计算。
遍历词元，计算优势。
将样本的词元级概率提交到训练器队列。

8. 示例

论文附录展示了个人智能体在优化前后的文字变化对比。

学生设定示例分析
在未优化前，当面对概率计算题目时，智能体不仅通过分布式的步骤给出了解答，还显式地列出了公式，并使用星号对中间结果和最终答案（例如 25% 或 Answer: 100% more likely）进行了加粗标记。这种形式带有典型的 AI 对话模型特征。经过训练优化后，回答风格转为了段落式的文字描述，去除了多余的加粗排版，将推理逻辑直接嵌入日常陈述句中，更好地匹配了用户“不想被发现使用 AI”的内在偏好。

教师设定示例分析
在优化前的批改中，智能体仅回复了类似于“Correct. Well done!”或“Correct answer: 189 hours.”的简短句子。这类回复符合答案正确的客观事实，但不满足教师“批语具体且友好”的要求。优化后的智能体会明确指出学生在哪个计算步骤中做得好（例如点出将“3 weeks”转换为“21 days”的细节），并加入了表情符号（[emoji]），语气更加鼓励，体现了指导性信号带来的文风调整。

9. 提示词模板设计分析

附录提供了各个组件在运行过程中使用的内部提示词模板。这些模板定义了裁判模型的输入格式与评估标准。

个人智能体 PRM 裁判提示词
系统指定模型为过程奖励模型，要求审视助手的输出与随后的用户回复，根据反馈判断助手输出的质量。评分规则被限定在输出带有 \boxed{} 格式的或之中。

个人智能体 OPD 裁判提示词
模型被指示用于提取后见之明的提示。系统要求模型判断下一个状态是否揭示了有助于改进轮次响应的后见之明。如果揭示了，要求输出格式化的标记并提供 1 到 3 句话的且具备操作性的具体修改建议。

个人智能体模拟器评估提示词
该提示词用于实验评测，对模型给定的回复相对于用户偏好设定的契合度进行打分。系统给定了五档分数：\boxed{0} 到 \boxed{1}（以 0.25 为步长）。打分规则要求考察回复是否符合用户期望的风格、语气、细节层级以及是否有用。系统强调要求直接输出带方框的得分，不需提供任何解释，以方便数值的提取。

通用智能体终端/GUI/SWE 裁判提示词
通用智能体的裁判提示词设计更为繁杂。以终端为例，系统向裁判提供任务指令、交互历史（包括轮次索引、助手文本、工具调用及工具结果）以及待评估的最新一步内容。要求判为 +1 的条件包括：该步推进了任务、工具格式正确、调用得当且结果显示进展。判为 -1 的条件则包括：执行引发了明显的循环、出现 JSON 解析错误或方向错误等。对于 GUI 环境，要求裁判考虑视觉前后环境的图像（通过 base64 编码输入）和当前屏幕观察结果，判断界面的变化是否具有实质性进展而非空操作。在 SWE 环境中，则需要参考问题陈述、Bash 命令历史及其返回码，判定编辑操作是否从逻辑上对修复 bug 存在正向作用。

10. 超参数细节补充

在实验部分的模型参数更新中，具体数值设定如下：

优化器：采用常量衰减的学习率（），权重衰减（Weight decay）设为 0.1。Adam 优化器的超参数和分别为 0.9 和 0.98。
策略梯度：熵系数（Entropy coefficient）设为 0.0，即处于禁用状态。KL 系数为 0.01。
部署参数（Rollout）：最大回复长度限制为 8192 个词元，最大上下文长度限制为 16384 个词元。温度系数为 1.0。
PRM / 裁判模型：投票数在 GUI 场景下设为 3，其他场景设为 1。生成时的温度系数设为 0.6。强化学习最大生成词元为 4096，OPD 设为 8192。

11. 总结

《OpenClaw-RL: Train Any Agent Simply by Talking》探索了一种不依赖批处理预收集数据即可实现策略在线优化的路径。其核心思路在于将智能体每次交互后自然产生的下一状态信号，根据其内在性质（评估性或指导性），分别通过 PRM 转化为过程标量奖励，并通过后见之明机制转化为带有方向性的词元级别优势。通过在同一个异步多流架构中集成这两种优化方法，模型能够在持续的常规使用中获得优化。实验评估表明，该框架不仅能让个人智能体的交互风格适配用户的隐性偏好，也能支持部署在具有长视野特征的通用计算机控制环境（如终端、GUI、代码和工具环境）中的模型优化。

更多细节请阅读原文。

往期文章：

OpenClaw-RL：仅通过“Talking”训练任何智能体