Gym

Gym 组件为 Twinkle 中的强化学习环境提供接口。

from twinkle.gym import Gym

class CustomGym(Gym):

    def step(self, trajectories, **kwargs):
        """
        执行一个 RL 步骤：评估轨迹并返回奖励。

        Args:
            trajectories: 模型生成的待评估轨迹
            **kwargs: 额外参数

        Returns:
            每个轨迹的奖励值
        """
        ...

Gym 抽象允许你插入自定义 RL 环境与训练循环交互。它将奖励计算和环境交互与核心训练逻辑解耦。

Gym 通常用于在线策略 RL 训练中，环境需要对模型生成的输出提供反馈。