Gym
Gym 组件为 Twinkle 中的强化学习环境提供接口。
from twinkle.gym import Gym
class CustomGym(Gym):
def step(self, trajectories, **kwargs):
"""
执行一个 RL 步骤:评估轨迹并返回奖励。
Args:
trajectories: 模型生成的待评估轨迹
**kwargs: 额外参数
Returns:
每个轨迹的奖励值
"""
...
Gym 抽象允许你插入自定义 RL 环境与训练循环交互。它将奖励计算和环境交互与核心训练逻辑解耦。
Gym 通常用于在线策略 RL 训练中,环境需要对模型生成的输出提供反馈。