twinkle
0.4.0.dev0
使用指引
快速开始
Twinkle安装
服务端和客户端
NPU(昇腾)开箱指南
ModelScope上的Twinkle训练服务
Qwen3.5 训练最佳实践
Embedding 模型训练
组件
数据集
数据格式
模板
模板
预处理器和过滤器
数据加载
任务处理器
模型
模型
采样器
奖励
优势
Hub
检查点引擎
指标
指标
损失
损失
损失缩放
LRScheduler
补丁
组件化
训练中间件
CLI
通知器
Agentic
Auto
twinkle
Twinkle DOCUMENTATION
查看页面源码
Twinkle DOCUMENTATION
使用指引
快速开始
Twinkle安装
服务端和客户端
NPU(昇腾)开箱指南
ModelScope上的Twinkle训练服务
Qwen3.5 训练最佳实践
Embedding 模型训练
组件
数据集
基本数据集组件
懒加载数据集
固定长度装箱数据集
流式数据集
流式固定长度装箱数据集
数据格式
消息
轨迹
模型输入
模型输入
采样输出
模型输出
模板
Template
模板对应关系
DeepSeek-V4 模板
工具调用解析器
模板
Template
模板对应关系
预处理器和过滤器
Preprocessor
内置预处理器
Filter
数据加载
DataLoader
任务处理器
InputProcessor
模型
TwinkleModel
TransformersModel
MultiLoraTransformersModel
MegatronModel
MultiLoraMegatronModel
支持的模型
模型
TwinkleModel
TransformersModel
MultiLoraTransformersModel
MegatronModel
MultiLoraMegatronModel
采样器
Sampler
vLLMSampler
TorchSampler
奖励
Reward
GSM8K 奖励
多模态奖励
OlympiadBench 奖励
优势
Advantage
GRPOAdvantage
RLOOAdvantage
Hub
Hub
检查点引擎
CheckpointEngine
NCCLCheckpointEngine
HCCLCheckpointEngine
指标
TrainMetric
LossMetric
Accuracy
CompletionRewardMetric
DPOMetric
GRPOMetric
EmbeddingMetric
构建指标
指标
TrainMetric
LossMetric
Accuracy
CompletionRewardMetric
DPOMetric
构建指标
损失
交叉熵
分块交叉熵
DPO 损失
GKD 损失
GRPO 损失
InfoNCE 损失
MSE 损失
构建新的 Loss
损失
交叉熵
分块交叉熵
DPO 损失
GKD 损失
GRPO 损失
MSE 损失
构建新的 Loss
损失缩放
损失缩放
LRScheduler
CosineWarmupScheduler
LinearWarmupScheduler
补丁
Patch
组件化
Plugin
服务安全
训练中间件
DeviceMesh/DeviceGroup
DeviceMesh/DeviceGroup
专家并行 (EP)
序列并行 (SP)
Padding-Free 训练
RemoteClass
TwinkleClient 客户端
CLI
CLI 命令行配置
通知器
通知器
Agentic
Agentic 预处理器
协议(Protocol)
多轮 Rollout
工具与 ToolManager
执行环境(Envs)
多轮工具使用指南
Auto
Auto-Research
SkillProvider 技能系统
Indices and tables
索引
模块索引
搜索页面