twinkle

0.4.0.dev0

使用指引

快速开始
Twinkle安装
服务端和客户端
NPU（昇腾）开箱指南
ModelScope上的Twinkle训练服务
Qwen3.5 训练最佳实践
Embedding 模型训练

组件

数据集
数据格式
模板
模板
预处理器和过滤器
数据加载
任务处理器
模型
模型
采样器
奖励
优势
Hub
检查点引擎
指标
指标
损失
损失
损失缩放
LRScheduler
补丁
组件化
训练中间件
CLI
通知器
Agentic
Auto

twinkle

Twinkle DOCUMENTATION
查看页面源码

Twinkle DOCUMENTATION

使用指引

快速开始
Twinkle安装
服务端和客户端
NPU（昇腾）开箱指南
ModelScope上的Twinkle训练服务
Qwen3.5 训练最佳实践
Embedding 模型训练

组件

数据集
- 基本数据集组件
- 懒加载数据集
- 固定长度装箱数据集
- 流式数据集
- 流式固定长度装箱数据集
数据格式
- 消息
- 轨迹
- 模型输入
- 模型输入
- 采样输出
- 模型输出
模板
- Template
- 模板对应关系
- DeepSeek-V4 模板
- 工具调用解析器
模板
- Template
- 模板对应关系
预处理器和过滤器
- Preprocessor
- 内置预处理器
- Filter
数据加载
- DataLoader
任务处理器
- InputProcessor
模型
- TwinkleModel
- TransformersModel
- MultiLoraTransformersModel
- MegatronModel
- MultiLoraMegatronModel
- 支持的模型
模型
- TwinkleModel
- TransformersModel
- MultiLoraTransformersModel
- MegatronModel
- MultiLoraMegatronModel
采样器
- Sampler
- vLLMSampler
- TorchSampler
奖励
- Reward
- GSM8K 奖励
- 多模态奖励
- OlympiadBench 奖励
优势
- Advantage
- GRPOAdvantage
- RLOOAdvantage
Hub
- Hub
检查点引擎
- CheckpointEngine
- NCCLCheckpointEngine
- HCCLCheckpointEngine
指标
- TrainMetric
- LossMetric
- Accuracy
- CompletionRewardMetric
- DPOMetric
- GRPOMetric
- EmbeddingMetric
- 构建指标
指标
- TrainMetric
- LossMetric
- Accuracy
- CompletionRewardMetric
- DPOMetric
- 构建指标
损失
- 交叉熵
- 分块交叉熵
- DPO 损失
- GKD 损失
- GRPO 损失
- InfoNCE 损失
- MSE 损失
- 构建新的 Loss
损失
- 交叉熵
- 分块交叉熵
- DPO 损失
- GKD 损失
- GRPO 损失
- MSE 损失
- 构建新的 Loss
损失缩放
- 损失缩放
LRScheduler
- CosineWarmupScheduler
- LinearWarmupScheduler
补丁
- Patch
组件化
- Plugin
- 服务安全
训练中间件
- DeviceMesh/DeviceGroup
- DeviceMesh/DeviceGroup
- 专家并行 (EP)
- 序列并行 (SP)
- Padding-Free 训练
- RemoteClass
- TwinkleClient 客户端
CLI
- CLI 命令行配置
通知器
- 通知器
Agentic
- Agentic 预处理器
- 协议（Protocol）
- 多轮 Rollout
- 工具与 ToolManager
- 执行环境（Envs）
- 多轮工具使用指南
Auto
- Auto-Research
- SkillProvider 技能系统

Indices and tables

索引
模块索引
搜索页面

下一页

© 版权所有 2022-2026, ModelScope Community。

利用 Sphinx 构建，使用的主题由 Read the Docs 开发.