# GRPOLossProcessor GRPOLossProcessor 是专为 GRPO 强化学习训练设计的任务处理器包装器。它在 InputProcessor 基础上扩展了 GRPO 特有的数据准备功能。 ```python from twinkle.processor import GRPOLossProcessor processor = GRPOLossProcessor( device_mesh=..., padding_free=False, framework='transformers', ) model.set_processor(processor) ``` GRPOLossProcessor 包装了基础 `InputProcessor`,并添加了 GRPO 特有字段的处理,如优势值、旧对数概率和参考对数概率,这些是 GRPO 损失函数所需要的。 > 对于标准 SFT 任务,直接使用 `InputProcessor`。当训练循环涉及 GRPO 或其变体时,使用 `GRPOLossProcessor`。